特色 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Tue, 27 Feb 2024 23:11:02 +0000
zh-CN
hourly
1
196178272 -
借助 NVIDIA AI Enterprise 推進生產級 AI 發展
http://www.open-lab.net/zh-cn/blog/advancing-production-ai-with-nvidia-ai-enterprise/
Thu, 25 Jan 2024 04:22:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=8872
Continued]]>
盡管許多企業將利用人工智能的潛力作為優先事項,但開發和部署人工智能模型需要時間和精力。通常,必須克服將模型投入生產的挑戰,這對于任務關鍵型業務運營尤為重要。根據IDC 研究,只有 18% 的受訪企業能夠在一個月內將 AI 模型投入生產。 本文探討了降低 AI 部署速度的挑戰,并介紹了使用一致、安全且可靠的平臺加速將 AI 投入生產之旅的優勢。 開源軟件(OSS)在推動人工智能(AI)的采用方面發揮著至關重要的作用。根據2023 年 10 月的現狀報告,與生成式 AI 相關的公共 GitHub 項目在 2023 年達到了 65000 個,同比增長了 249%。盡管開源社區推動了 AI 時代的發展,但在構建 AI 應用程序中使用的各種 OSS 使得維護可靠的企業級 AI 軟件堆棧成為一項復雜且資源密集型的工作,類似于維護開源操作系統的難度。 例如,
Source
]]>
8872
-
2023 年最熱門的 NVIDIA 技術博客文章:生成式 AI、LLM、機器人開發和虛擬世界的突破
http://www.open-lab.net/zh-cn/blog/year-in-review-trending-posts-of-2023/
Tue, 19 Dec 2023 04:58:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=8555
Continued]]>
在 NVIDIA 激動人心的又一年即將結束之際,是時候回顧 2023 年 NVIDIA 技術博客中最熱門的案例了。 生成式 AI、大型語言模型 (LLM)、高性能計算 (HPC) 和機器人等領域的突破性研究和開發正在引領變革性 AI 解決方案的發展,并吸引了讀者的興趣。其他熱門文章探討了視頻技術和視頻會議領域的進步、增強用戶體驗以及 AI 安全方面的突破。 以下是 2023 年的部分亮點。 借助生成式 AI 快速生成虛擬世界的 3D 素材 NVIDIA Omniverse 上的新生成式 AI 技術增強了虛擬環境中的 3D 素材創建。這些進步旨在使元宇宙中的虛擬世界創建更快、更輕松。 利用 NVIDIA Maxine 眼神交流功能,增強視頻會議中的人際互動 NVIDIA Maxine 眼神交流技術利用 AI 實時調整您對攝像頭的注視點,
Source
]]>
8555
-
使用 NVIDIA Isaac 模擬和本地化 Husky 機器人
http://www.open-lab.net/zh-cn/blog/simulate-and-localize-a-husky-robot-with-nvidia-isaac/
Thu, 14 Dec 2023 05:51:10 +0000
http://www.open-lab.net/zh-cn/blog/?p=8596
Continued]]>
由 Clearpath Robotics 開發的 Husky 機器人,是一款專為室內和室外研究用途設計的多功能四輪平臺。通過添加其他傳感器和更換高級主板,可以輕松進行升級改造。本文介紹了如何使用官方 ROS 2 Husky 軟件包,將機器人導入到 NVIDIA Isaac Sim 并進行模擬創建。 在此演示中,Husky 機器人搭載了 NVIDIA Jetson Orin Nano,并使用最新版本的 Isaac ROS 2 驅動。該系統包含了多個 Isaac ROS 軟件包,用于機器人定位的 NVIDIA Isaac ROS VSLAM、地圖構建的 NVIDIA Isaac ROS NvBlox 以及 Apriltag 檢測的 NVIDIA Isaac ROS Apriltag。 Husky 統一機器人描述格式 (URDF) 從 ROS 2 主題中動態加載。
Source
]]>
8596
-
借助 NVIDIA DeepStream 和 Edge Impulse 實現計算機視覺快速部署
http://www.open-lab.net/zh-cn/blog/fast-track-computer-vision-deployments-with-nvidia-deepstream-and-edge-impulse/
Thu, 14 Dec 2023 05:46:30 +0000
http://www.open-lab.net/zh-cn/blog/?p=8593
Continued]]>
基于 AI 的計算機視覺 (CV) 應用程序不斷增加,對于從視頻源中提取實時見解尤為重要。這項革命性的技術使您能夠解鎖在沒有重大操作人員干預的情況下無法獲得的寶貴信息,并為創新和解決問題提供新的機會。 NVIDIA DeepStream SDK 旨在為智能視頻分析 (IVA) 用例提供從視頻流中提取見解的能力,利用機器學習 (ML) 技術。在 NVIDIA 硬件上運行時,DeepStream 利用 GPU 加速和專為 ML 優化的加速硬件,以最大化提升預處理性能。 本文將探討如何結合使用 NVIDIA Omniverse 和 Edge Impulse,利用 NVIDIA DeepStream SDK 進行模型開發和部署,以便您可以快速創建端到端應用。Edge Impulse 是 NVIDIA 初創加速計劃的一部分。 在當今環境中,快速構建復雜、
Source
]]>
8593
-
生成式 AI 研究聚焦:揭開基于擴散的模型的神秘面紗
http://www.open-lab.net/zh-cn/blog/generative-ai-research-spotlight-demystifying-diffusion-based-models/
Thu, 14 Dec 2023 05:41:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=8589
Continued]]>
借助互聯網級數據,AI 生成內容的計算需求顯著增加,數據中心在數周或數月內全力運行單個模型,更不用說通常作為服務提供的高生成推理成本。在這種情況下,犧牲性能的次優算法設計是一個代價高昂的錯誤。 近期,AI 生成的圖像、視頻和音頻內容取得了很大進展,降噪擴散 —— 一種以迭代方式將隨機噪聲塑造成新數據樣本的技術。我們的團隊最近發表的一篇研究論文 《闡明基于擴散的生成模型的設計空間》 獲得了 NeurIPS 2022 杰出論文獎,該論文識別出了文檔中看似復雜的方法背后的簡單核心機制。從對基礎知識的清晰認識開始,我們能夠發現在質量和計算效率方面的先進實踐。 降噪是指從圖像中消除傳感器噪聲或從錄音中消除聲等操作。本文將使用圖像作為運行示例,但該過程也適用于許多其他領域。此任務非常適合卷積神經網絡。 這與生成新圖像有什么關系?想象一下,圖像上有大量噪點。確實,
Source
]]>
8589
-
構建您的首個 LLM 代理申請
http://www.open-lab.net/zh-cn/blog/building-your-first-llm-agent-application/
Thu, 30 Nov 2023 07:56:44 +0000
http://www.open-lab.net/zh-cn/blog/?p=8440
Continued]]>
在構建 大型語言模型 (LLM) 智能體應用時,您需要四個關鍵組件:智能體核心、內存模塊、智能體工具和規劃模塊。無論您是設計問答智能體、多模態智能體還是智能體群,您都可以考慮許多實現框架 — 從開源到生產就緒。有關更多信息,請參閱 LLM 代理簡介。 對于首次嘗試開發 LLM 代理的用戶,本文提供了以下內容: 你們大多數人可能已經閱讀過有關 LangChain 或 LLaMa-Index 代理的文章。以下是目前可用的一些實現框架: 那么,我推薦哪一種?答案是,“這取決于”。 社區構建了多個框架來推進 LLM 應用開發生態系統,為您提供了開發代理的簡單路徑。熱門框架的一些示例包括 LangChain、LlamaIndex 和 Haystack.這些框架提供通用代理類、連接器和內存模組功能、第三方工具的訪問權限,以及數據檢索和提取機制。
Source
]]>
8440
-
使用 Bi-Level 模仿學習仿真現實交通行為
http://www.open-lab.net/zh-cn/blog/simulating-realistic-traffic-behavior-with-a-bi-level-imitation-learning-ai-model/
Tue, 28 Nov 2023 04:44:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=8403
Continued]]>
無論是突然加塞(cut-in),還是無意地 U 形掉頭,人類駕駛員的行為通常難以預測。行為的不可預測性源自人類決策過程的天然復雜性, 往往受多種因素的影響,而且在不同的運行設計域(ODD)和國家也會有所不同,因此很難在仿真中模擬駕駛行為。 但自動駕駛汽車(AV)的開發人員需要有把握地開發和部署能夠在不同 ODD 環境以及多樣的交通行為下運行的駕駛系統。NVIDIA Research 團隊最近發表的論文 BITS: Bi-Level Imitation for Traffic Simulation 中概述了一種仿真現實世界交通行為的新方法,該方法可以幫助開發人員做到這一點。 交通仿真 Bi-Level 模仿(BITS)是一種交通模型,該模型能夠以驚人的逼真度還原現實世界的復雜性,而且性能超過了以往的方法。在該論文詳細介紹的一個試驗中,
Source
]]>
8403
-
掌握 LLM 技術:訓練
http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-training/
Thu, 16 Nov 2023 05:30:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=8313
Continued]]>
大型語言模型 (LLM) 是一類使用 Transformer 網絡構建的生成式 AI 模型,能夠利用非常大的數據集來識別、匯總、翻譯、預測和生成語言。正如我們所知,LLM 有望改變社會,但訓練這些基礎模型極具挑戰性。 此博客闡述了使用 Transformer 網絡構建 LLM 的基本原理,涵蓋模型架構、注意力機制、嵌入技術和基礎模型訓練策略。 模型架構定義了 Transformer 網絡的骨干,大致規定了模型的功能和限制。LLM 的架構通常稱為編碼器、解碼器或編碼器 – 解碼器模型。 一些熱門架構包括: 另一個熱門架構決策是擴展到多模態模型,這些模型結合了來自文本、圖像、音頻和視頻等多種模式或形式的數據的信息。雖然訓練具有挑戰性,但多模態模型提供了來自不同模式的互補信息的關鍵優勢,正如人類通過分析來自多種感官的數據所理解的那樣。
Source
]]>
8313
-
借助基礎 HPC 軟件發揮 NVIDIA Grace 和 NVIDIA Hopper 架構的強大功能
http://www.open-lab.net/zh-cn/blog/unlock-the-power-of-nvidia-grace-and-nvidia-hopper-architectures-with-foundational-hpc-software/
Thu, 16 Nov 2023 05:26:09 +0000
http://www.open-lab.net/zh-cn/blog/?p=8309
Continued]]>
高性能計算(HPC)為模擬和建模、醫療健康、生命科學、工業和工程等領域的應用提供支持。在現代數據中心,HPC 與 AI 協同工作,以變革性的新方式利用數據。 新一代 HPC 應用程序對性能和吞吐量的需求催生了一個能夠處理多種工作負載并在 CPU 和 GPU 之間實現緊密協作的加速計算平臺。NVIDIA Grace CPU 和 NVIDIA Hopper GPU 構成了用于 HPC 開發的行業領先硬件生態系統。 NVIDIA 提供了一系列工具、庫和編譯器,幫助開發者充分利用 NVIDIA Grace 和 NVIDIA Grace Hopper 架構的潛力。這些資源支持創新,并助力應用程序最大化地利用加速計算的優勢。此基礎軟件堆棧不僅提供了 GPU 加速的方法,還包括在基于 NVIDIA Grace 的系統上移植和優化應用程序的策略。
Source
]]>
8309
-
CUDA 工具包 12.3 為加速計算提供新功能
http://www.open-lab.net/zh-cn/blog/cuda-toolkit-12-3-delivers-new-features-for-accelerated-computing-2/
Wed, 01 Nov 2023 05:52:10 +0000
http://www.open-lab.net/zh-cn/blog/?p=8174
Continued]]>
NVIDIA DLSS 技術的最新版本使用最新的 NVIDIA GPU,通過 CUDA 工具包 繼續推動加速計算性能的發展。此版本的新功能,版本 12.3 包括: CUDA 和 CUDA 工具包繼續為數據科學、機器學習和深度學習、使用 LLM 進行訓練和推理、圖形和仿真以及科學計算等領域的所有加速計算應用提供基礎。CUDA 對于幫助解決世界上最復雜的計算問題至關重要。 最新版本的 NVIDIA Nsight 開發者工具 已包含在 CUDA 工具包中,可幫助您在 GPU 上優化和調試 CUDA 應用程序,適用于NVIDIA Grace Hopper 平臺。 Nsight 計算 為 CUDA 內核提供詳細的分析和分析,版本 2023.3 隨 CUDA 工具包 12.3 首次亮相。此版本包含可提高性能以及數據收集和分析能力的功能。
Source
]]>
8174
-
現已公開發布!歡迎使用 NVIDIA TensorRT-LLM 優化大語言模型推理
http://www.open-lab.net/zh-cn/blog/optimizing-inference-on-llms-with-tensorrt-llm-now-publicly-available/
Thu, 19 Oct 2023 06:54:42 +0000
http://www.open-lab.net/zh-cn/blog/?p=8071
Continued]]>
NVIDIA 于 2023 年 10 月 19 日公開發布 TensorRT-LLM,可在 NVIDIA GPU 上加速和優化最新的大語言模型( Large Language Models)的推理性能。該開源程序庫現已作為 NVIDIA NeMo 框架的一部分,在 /NVIDIA/TensorRT-LLM GitHub 資源庫中免費提供。 大語言模型徹底改變了人工智能領域,并創造了與數字世界交互的全新方式。但是,隨著世界各地的企業和應用開發者想要在自己的工作中采用大語言模型,運行這些模型的相關問題開始凸顯。 簡而言之,大語言模型規模龐大。如果不采用正確的技術,那么運行大語言模型的成本不僅會很高,速度也會很慢。 為解決這一問題,從模型優化(如內核融合和量化)到運行時優化(如 C++ 實現、KV 緩存、連續動態批處理 continuous in-flight…
Source
]]>
8071
-
借助 NVIDIA Jetson 優化功耗
http://www.open-lab.net/zh-cn/blog/power-optimization-with-nvidia-jetson/
Thu, 05 Oct 2023 04:20:34 +0000
http://www.open-lab.net/zh-cn/blog/?p=7948
Continued]]>
在使用嵌入式系統時,Jetson modules 是非常重要的。此外,您必須根據功耗預算和計算資源來優化應用程序。為了避免性能甚至是熱調節問題,監控這些資源變得非常重要。 Jetson 模組采用 GPU、CPU 和各種 AI 加速器設計,還具有高效電源管理集成電路 (PMIC)、電壓調節器和功率樹,可優化能效。 NVIDIA 提供多種工具和資源,可幫助您利用功率架構并優化資源使用: 每個 Jetson 模塊都支持多個預配置功率模式,這些模式針對特定功率預算進行了優化:10 瓦、15 瓦、30 瓦等。對于每個功率預算,在資源利用率方面都有各種可能的配置。 這些電源模式設置為 nvpmodel。您可以選擇使用其中一種預配置模式,也可以創建根據您的要求調整的自定義功率模式。nvpmodel 配置支持一定數量的在線 GPU TPC、CPU、DLA 和 PVA 核心,
Source
]]>
7948
-
分析機器學習研究代碼的安全性
http://www.open-lab.net/zh-cn/blog/analyzing-the-security-of-machine-learning-research-code/
Wed, 04 Oct 2023 04:27:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=7953
Continued]]>
我們的 NVIDIA AI 紅隊 專注于在數據、科學和 AI 生態系統中擴展安全開發實踐。我們參與 開源安全倡議,發布 工具,并出席了 行業會議,主辦 教育競賽 并提供 創新培訓。 最近發布的 Meta Kaggle for Code 數據集為大規模分析機器學習 (ML) 研究和實驗競賽代碼安全性提供了絕佳的機會。我們的目標是利用這些數據來解答以下問題: 我們的分析表明,盡管有關于安全風險的公開文檔以及相對順暢的高級安全工具,ML 研究人員仍繼續使用不安全的編碼實踐。我們的理論認為,研究人員優先考慮快速實驗,并且不會將自己或其項目視為目標,因為他們通常不運行生產服務。 此外,Kaggle 環境可能會因為與研究人員的“真實基礎架構”隔離而導致安全漏洞更加嚴重。但是,研究人員必須承認自己在軟件供應鏈中的地位,并應意識到不安全的編碼操作對其研究和系統帶來的風險。
Source
]]>
7953
-
加速向量搜索:RAPIDS RAFT IVF-Flat 近似算法
http://www.open-lab.net/zh-cn/blog/accelerated-vector-search-approximating-with-rapids-raft-ivf-flat/
Mon, 02 Oct 2023 04:45:11 +0000
http://www.open-lab.net/zh-cn/blog/?p=7963
Continued]]>
執行詳盡的精確 k 最近鄰 (kNN) 搜索,也稱為暴力搜索,成本高昂,并且它不能很好地擴展到更大的數據集。在向量搜索期間,暴力搜索需要計算每個查詢向量和數據庫向量之間的距離。對于常用的歐幾里德和余弦距離,計算任務等同于大型矩陣乘法。 雖然 GPU 在執行矩陣乘法方面效率很高,但隨著數據量的增加,計算成本變得令人望而卻步。然而,許多應用程序不需要精確的結果,而是可以為了更快的搜索而犧牲一些準確性。當不需要精確的結果時,近似最近鄰 (ANN) 方法通常可以減少搜索期間必須執行的距離計算的數量。 本文主要介紹了 IVF-Flat,這是 NVIDIA RAPIDS RAFT 中的一種方法。IVF-Flat 方法使用原始(即Flat)向量的倒排索引 (IVF)。此算法提供了簡單的調整手段,以減少整體搜索空間并在準確性和速度之間進行權衡。 為了幫助您了解如何使用 IVF-Flat,
Source
]]>
7963
-
構建軟件定義、高性能和高效的 vRAN 需要可編程的內聯加速
http://www.open-lab.net/zh-cn/blog/building-software-defined-high-performance-and-efficient-vran-requires-programmable-inline-acceleration/
Mon, 02 Oct 2023 04:44:28 +0000
http://www.open-lab.net/zh-cn/blog/?p=7960
Continued]]>
在 3GPP 第五代 (5G) 蜂窩標準中,第 1 層 (L1) 或物理層 (PHY) 是無線接入網 (RAN) 工作負載中計算密集程度最高的部分。它涉及一些非常復雜的數學運算,其中包含復雜的算法,例如信道估計和均衡、調制/解調和前向糾錯 (FEC).這些功能需要高計算密度,才能在不同的無線電條件下保持 5G 的低延遲要求和信號完整性。 傳統上,此層是使用專用硬件實現的,例如帶有數字信號處理 (DSP) 核心的專用集成電路 (ASIC).但是,這種方法有一些缺點,即無法擴展性能、硬件和軟件緊密合以及封閉的單一供應商解決方案。所有這些都導致部署和運行 RAN 的成本高昂。 為應對這些挑戰,該行業一直在向虛擬化 RAN (vRAN) 和開放 RAN (O-RAN) 架構轉變,使用基于 x86 CPU 的商用現成 (COTS) 服務器。人們期望這將降低成本,
Source
]]>
7960
人人超碰97caoporen国产