云服務 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 24 Apr 2025 05:38:47 +0000 zh-CN hourly 1 196178272 聚焦:Qodo 借助 NVIDIA DGX 實現高效代碼搜索創新 http://www.open-lab.net/zh-cn/blog/spotlight-qodo-innovates-efficient-code-search-with-nvidia-dgx/ Wed, 23 Apr 2025 05:33:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=13605 Continued]]> 大語言模型 (LLMs) 使 AI 工具能夠幫助您更快地編寫更多代碼,但隨著我們要求這些工具承擔越來越復雜的任務,其局限性變得顯而易見。理解編程語言的細微差別、復雜的依賴項以及適應代碼庫特定上下文等挑戰可能會導致代碼質量低下,并導致后續瓶頸。 Qodo 是 NVIDIA Inception 計劃 的成員,是一個多智能體代碼完整性平臺,可通過 AI 驅動的智能體進行代碼編寫、測試和審查,從而增強和自動化軟件質量工作流。 Qodo 愿景的一個核心原則是,相信只有在深度情境感知的情況下,AI 才能對軟件完整性進行有意義的改進。代碼并非孤立編寫,而是存在于復雜的架構、不斷演變的依賴項和特定的編碼標準中。為了讓 AI 有效地幫助開發者,它不僅必須理解語法,還必須理解代碼庫的意圖、模式和更廣泛的結構。 Qodo 在先進的 檢索增強生成 (RAG) 、

Source

]]>
13605
LLM 基準測試:基本概念 http://www.open-lab.net/zh-cn/blog/llm-benchmarking-fundamental-concepts/ Wed, 02 Apr 2025 08:02:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=13428 Continued]]> 在過去幾年中,作為廣泛的 AI 革命的一部分, 生成式 AI 和 大語言模型 (LLMs) 越來越受歡迎。隨著基于 LLMs 的應用在各個企業中的推廣,我們需要確定不同 AI 服務解決方案的成本效益。部署 LLM 應用的成本取決于它每秒可以處理的查詢數量,同時響應最終用戶并支持可接受的響應準確度。本文特別關注 LLMs 吞吐量和延遲測量,以評估 LLM 應用成本。 NVIDIA 為開發者提供涵蓋芯片、系統和軟件的全棧創新。NVIDIA 推理軟件堆棧包括 NVIDIA Dynamo 、 NVIDIA TensorRT-LLM 和 NVIDIA NIM 微服務。為支持開發者實現基準測試推理性能,NVIDIA 還提供了開源生成式 AI 基準測試工具 GenAI-Perf 。詳細了解如何 使用 GenAI-Perf 進行基準測試 。 可以使用各種工具來評估 LLMs 的性能。

Source

]]>
13428
Volcano 調度程序中防止 GPU 碎片的實用技巧 http://www.open-lab.net/zh-cn/blog/practical-tips-for-preventing-gpu-fragmentation-for-volcano-scheduler/ Mon, 31 Mar 2025 08:16:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=13440 Continued]]> 在 NVIDIA,我們以精準和創新解決復雜的基礎設施挑戰為豪。當 Volcano 在其 NVIDIA DGX 云調配的 Kubernetes 集群中面臨 GPU 利用率不足時,我們介入提供了一個不僅達到而且超過預期的解決方案。 通過將先進的調度技術與對分布式工作負載的深入理解相結合,我們實現了約 90% 的 GPU 占用率,遠高于 80% 的合同目標。下面詳細介紹了問題、我們的方法和結果。 DGX 云 Kubernetes 集群由數千個 GPU 組成,每個 GPU 均配備多個 NVIDIA L40S GPU。該集群支持多種工作負載: 盡管有可靠的硬件,但該集群仍存在 GPU 碎片化問題,導致節點被部分占用,無法用于大型作業。這種效率低下的情況又因 Volcano 調度程序 它使用了一個分組調度算法。 如果不進行干預,我們可能會違反合同協議,維持至少 80%

Source

]]>
13440
聚焦:Tomorrow.io 借助 NVIDIA AI 改變全球天氣恢復能力 http://www.open-lab.net/zh-cn/blog/spotlight-tomorrow-io-transforms-global-weather-resilience-with-nvidia-ai/ Wed, 26 Mar 2025 06:16:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=13425 Continued]]> 從指導日常運營的超本地化預測,到啟發新氣候見解的行星級模型,世界正在進入天氣和氣候適應能力的新前沿。基于空間的觀測結果與 GPU 加速的 AI 相結合,可為全球企業、政府、研究人員和解決方案提供商提供近乎即時且情境豐富的見解。 這也標志著變革性技術的罕見融合同時出現,突破了創新和復合價值的界限。除了加速數據處理之外,這些新技術還為大規模生成和學習大氣數據饋送提供了新的方法,同時預測并提前填補了未來的數據缺口。通過利用真實的觀測數據而非合成替代方案,它們體現了氣候技術的未來,即預測極端天氣、為社區和企業提供可行見解,并最終為整個行業提供加速新形式創新所需的基礎設施。 為了與這種方法保持一致,氣象智能平臺 Tomorrow.io 貢獻了其近乎實時的專有衛星數據,以幫助創建 NVIDIA 數字孿生 用于新一代 AI 模型訓練、推理和增強。

Source

]]>
13425
NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能 http://www.open-lab.net/zh-cn/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/ Tue, 18 Mar 2025 05:30:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=13327 Continued]]> NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能 。 搭載 8 個 NVIDIA Blackwell GPU 的單個 NVIDIA DGX 系統 ,在具有 671 億個參數的先進大型 DeepSeek-R1 模型上,每個用戶每秒可實現超過 250 個 token,或每秒超過 30,000 個 token 的最大吞吐量。得益于 NVIDIA 開放生態系統的推理開發者工具的改進 (現已針對 NVIDIA Blackwell 架構進行優化) ,這些性能頻譜兩端的快速性能提升得以實現。 隨著 NVIDIA 平臺不斷突破最新 NVIDIA Blackwell Ultra GPU 和 NVIDIA Blackwell GPU 的推理極限,這些性能記錄將會得到改善。 單個 DGX B200 8-GPU 系統和單個 DGX…

Source

]]>
13327
在 NVIDIA DGX 云上使用 NVIDIA NeMo Curator 處理 PB 級視頻 http://www.open-lab.net/zh-cn/blog/petabyte-scale-video-processing-with-nvidia-nemo-curator-on-nvidia-dgx-cloud/ Tue, 18 Mar 2025 02:53:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=13281 Continued]]> 隨著 物理 AI 的興起,視頻內容生成呈指數級增長。一輛配備攝像頭的自動駕駛汽車每天可生成超過 1 TB 的視頻,而機器人驅動的制造廠每天可生成 1 PB 的數據。 要利用這些數據來訓練和微調 世界基礎模型 (WFMs) ,您必須首先高效地處理這些數據。 傳統的固定容量批量處理流水線難以應對這種規模,通常未充分利用 GPU,并且無法匹配所需的吞吐量。這些效率低下的情況減緩了 AI 模型的開發,并增加了成本。 為了應對這一挑戰, NVIDIA NeMo Curator 團隊 開發了一個靈活的 GPU 加速流式傳輸管道,用于大規模視頻管護,現在可在 NVIDIA DGX Cloud 上使用 。在本文中,我們將探討在管道中進行的優化,包括 自動擴展和負載均衡技術,以確保在充分利用可用硬件的同時優化各管道階段的吞吐量。 結果如何?更高的吞吐量、

Source

]]>
13281
借助 NVIDIA DGX 云基準測試衡量和提高 AI 工作負載性能 http://www.open-lab.net/zh-cn/blog/measure-and-improve-ai-workload-performance-with-nvidia-dgx-cloud-benchmarking/ Tue, 18 Mar 2025 02:35:56 +0000 http://www.open-lab.net/zh-cn/blog/?p=13275 Continued]]> 隨著 AI 功能的進步,了解硬件和軟件基礎架構選擇對工作負載性能的影響對于技術驗證和業務規劃都至關重要。組織需要一種更好的方法來評估現實世界中的端到端 AI 工作負載性能和總擁有成本,而不僅僅是比較原始 FLOPs 或每個 GPU 的每小時成本。實現出色的 AI 性能需要的不僅僅是強大的 GPU。它需要一個經過充分優化的平臺,包括基礎架構、軟件框架和應用級增強功能。 在評估 AI 性能時,請提出以下關鍵問題:您的實現是否正確,或者是否存在與參考架構相比減慢您速度的錯誤?集群的最佳規模是什么?選擇哪些軟件框架可以縮短上市時間?傳統的芯片級指標不足以完成這項任務,導致投資未得到充分利用,并且錯過了效率提升。衡量 AI 工作負載和基礎設施的性能至關重要。 本文將介紹 NVIDIA DGX 云基準測試,這是一套工具,用于評估跨 AI 工作負載和平臺的訓練和推理性能,其中包括基礎設施軟件、

Source

]]>
13275
NVIDIA DGX 云推出即用型模板,更好地評估 AI 平臺性能 http://www.open-lab.net/zh-cn/blog/nvidia-dgx-cloud-introduces-ready-to-use-templates-to-benchmark-ai-platform-performance/ Tue, 11 Feb 2025 03:20:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=12847 Continued]]> 在快速發展的 AI 系統和工作負載環境中,實現出色的模型訓練性能遠遠超出芯片速度。這需要對整個堆棧進行全面評估,從計算到網絡,再到模型框架。 了解復雜的 AI 系統性能可能比較困難。從精度到并行,您可以對許多應用程序進行更改,但目前需要付出大量努力和掌握專業知識才能有效實施這些更改。 NVIDIA DGX Cloud Benchmarking Recipes 為提高訓練性能提供了指導,通過分享每個工作負載的良好性能以及實現方法的最佳實踐。 如需了解更多信息,請參閱 NVIDIA DGX Cloud Benchmarking Recipes 。 DGX 云 Benchmarking Recipes 是一款端到端基準測試套件,既可以衡量真實環境中的性能,也可以識別 AI 訓練工作負載中的優化機會。這些基準測試方法經過精心設計,可評估真實 AI 應用的性能,

Source

]]>
12847
NVIDIA Blackwell 上的 OpenAI Triton 提升 AI 性能和可編程性 http://www.open-lab.net/zh-cn/blog/openai-triton-on-nvidia-blackwell-boosts-ai-performance-and-programmability/ Wed, 05 Feb 2025 04:33:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=12874 Continued]]> 矩陣乘法和注意力機制是現代 AI 工作負載的計算支柱。雖然庫如 NVIDIA cuDNN 提供高度優化的實現,而框架如 CUTLASS 提供深度自定義,但許多開發者和研究人員都需要將性能與可編程性結合起來的中間點。 NVIDIA Blackwell 架構 上的 開源 Triton 編譯器 通過直觀的編程模型展示 Blackwell 的高級功能來滿足這一需求。 得益于 NVIDIA 與 OpenAI 的持續合作,Triton 編譯器現已支持 NVIDIA Blackwell 架構。這可確保開發者和研究人員可以通過基于 Python 的編譯器 (例如 Triton) 輕松使用 Blackwell 架構中最新的出色功能。 NVIDIA Blackwell 架構在原始計算能力和架構創新方面實現了顯著提升。NVIDIA 與 OpenAI 的合作重點是通過 Triton…

Source

]]>
12874
NVIDIA 集合通信庫 2.23 促使新的縮放算法和初始化方法的誕生 http://www.open-lab.net/zh-cn/blog/new-scaling-algorithm-and-initialization-with-nvidia-collective-communications-library-2-23/ Fri, 31 Jan 2025 04:47:14 +0000 http://www.open-lab.net/zh-cn/blog/?p=12886 Continued]]> NVIDIA 集合通信庫 (NCCL) 可實現針對 NVIDIA GPU 和網絡進行優化的多 GPU 和多節點通信基元。NCCL 是多 GPU 深度學習訓練軟件的核心部分。它可以處理任何類型的 GPU 間通信,無論是通過 PCI、NVLink 還是網絡進行通信。它采用先進的拓撲檢測、優化的通信圖形和調整模型,可在 NVIDIA GPU 平臺上直接獲得開箱即用的最佳性能。 在本文中,我們將討論 NCCL 2.23 中發布的新功能和修復程序。查看 NVIDIA/nccl Github 存儲庫。 NVIDIA Magnum IO NCCL 是一個旨在優化 GPU 間和多節點通信的庫,對于 AI 和高性能計算 (HPC) 應用中的高效并行計算至關重要。此版本的價值在于其新功能: 以下各節將深入探討新功能的詳細信息: PAT 算法是 Bruck 算法的變體,

Source

]]>
12886
借助 NVIDIA DOCA 平臺框架,助力新一代 DPU 加速云基礎設施 http://www.open-lab.net/zh-cn/blog/powering-the-next-wave-of-dpu-accelerated-cloud-infrastructures-with-nvidia-doca-platform-framework/ Mon, 13 Jan 2025 08:06:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=12623 Continued]]> 越來越多的企業組織開始采用加速計算來滿足生成式 AI、5G 電信和主權云的需求。NVIDIA 發布了 DOCA 平臺框架 (DPF),該框架提供了基礎構建塊來釋放 NVIDIA BlueField DPU 的強大功能,并優化 GPU 加速的計算平臺。作為一種編排框架和實施藍圖,DPF 使開發者、服務提供商和企業能夠無縫創建 BlueField 加速的云原生軟件平臺。 通過簡化 DPU 調配、生命周期管理和服務編排,DPF 使 BlueField DPU 可在 Kubernetes 環境中廣泛使用,以加速 AI 和其他現代工作負載。此外,DPF 還強化了由 BlueField 加速的應用和服務組成的生態系統,推動可擴展云平臺的發展。 NVIDIA 對 CPU-GPU-DPU 三功能的承諾眾所周知,隨著 DPF 的推出,NVIDIA 正在此架構的 DPU 方面實現大膽的飛躍。

Source

]]>
12623
借助 NVIDIA 全棧解決方案提升 AI 推理性能 http://www.open-lab.net/zh-cn/blog/optimize-ai-inference-performance-with-nvidia-full-stack-solutions/ Tue, 24 Dec 2024 05:43:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=12923 Continued]]> AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。 NVIDIA 正在為開發者提供涵蓋芯片、系統和軟件的全棧創新,重新定義 AI 推理 的可能性,使其比以往更快、更高效、更具可擴展性。 六年前,NVIDIA 著手打造 AI 推理服務器,專為構建高吞吐量、延遲關鍵型生產應用的開發者而設計。當時,許多開發者都在努力使用定制的、特定于框架的服務器,這些服務器增加了復雜性,增加了運營成本,并且難以滿足嚴格的服務水平協議(service-level agreements)關于延遲和吞吐量的要求。 為解決這一問題,NVIDIA 開發了 NVIDIA Triton Inference Server ,這是一個開源平臺,能夠為來自任何 AI 框架的模型提供服務。通過整合特定于框架的推理服務器,

Source

]]>
12923
借助 NVIDIA TensorRT-LLM 分塊預填充提高 AI 推理效率和簡化部署 http://www.open-lab.net/zh-cn/blog/streamlining-ai-inference-performance-and-deployment-with-nvidia-tensorrt-llm-chunked-prefill/ Fri, 15 Nov 2024 07:04:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=12029 Continued]]> 在本 博文 中,我們詳細介紹了分塊預填充,這是 NVIDIA TensorRT-LLM 的一項功能,可提高 GPU 利用率并簡化開發者的部署體驗。本文基于之前的博文,討論了 TensorRT-LLM 中的高級 KV 緩存優化功能如何在需要系統預填充的用例中將性能提升高達 5 倍。 當用戶向模型提交請求時,它將經歷兩個不同的計算階段:預填充和解碼。每個階段使用 GPU 計算資源的方式各不相同。 在預填充階段,系統會處理所有輸入令牌以計算 KV 緩存,然后使用該緩存生成輸出的第一個令牌。此階段的計算要求很高,可以有效利用 GPU 龐大的并行計算資源。 在解碼階段,系統會單獨生成輸出 tokens,使用每個新 tokens 更新預填充階段的中間狀態。由于中間狀態計算的繁重計算工作是在預填充階段完成的,因此解碼階段主要涉及僅處理新生成的 tokens。因此,

Source

]]>
12029
NVIDIA NIM 1.4 現已部署可用,推理速度提升 2.4 倍 http://www.open-lab.net/zh-cn/blog/nvidia-nim-1-4-ready-to-deploy-with-2-4x-faster-inference/ Fri, 15 Nov 2024 07:01:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=12026 Continued]]> 隨著 生成式 AI 重塑各行各業,對可立即部署的高性能推理的需求也在不斷增長。 NVIDIA NIM 為 AI 模型推理提供生產就緒型微服務容器,不斷提高企業級生成式 AI 性能。即將推出的 NIM 版本 1.4 定于 12 月初發布,開箱即用的請求性能可提升高達 2.4 倍,并提供相同的單命令部署體驗。 NIM 的核心是多個 LLM 推理引擎,包括 NVIDIA TensorRT-LLM ,可實現光速推理性能。在每個版本中,NIM 都整合了來自這些引擎的內核優化、內存管理和調度方面的最新進展,以提高性能。 在 NIM 1.4 中,內核效率、運行時啟發式算法和內存分配有了顯著改進,推理速度提高了 2.4 倍。這些進步對于依賴快速響應和高吞吐量的生成式 AI 應用的企業至關重要。 NIM 還受益于全棧加速計算的持續更新,可提升計算堆棧各個級別的性能和效率。

Source

]]>
12026
NVIDIA DOCA 2.9 借助新性能和安全功能強化人工智能和云計算基礎設施 http://www.open-lab.net/zh-cn/blog/nvidia-doca-2-9-enhances-ai-and-cloud-computing-infrastructure-with-new-performance-and-security-features/ Thu, 14 Nov 2024 07:22:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=12041 Continued]]> NVIDIA DOCA 通過為開發者提供全面的軟件框架來利用硬件加速來增強 NVIDIA 網絡平臺的功能,從而提高性能、安全性和效率。它的 API、庫和工具生態系統可簡化數據中心基礎設施的開發,實現工作負載卸載、加速和隔離,以支持現代、高效的數據中心。 如今,許多主要的 CSP 和 NVIDIA 云合作伙伴(NCP)都在使用 DOCA,并為快速開發和部署創新解決方案提供了標準化平臺。這種方法可縮短上市時間、降低成本,并使合作伙伴能夠在使用 NVIDIA 硬件加速的同時專注于自身的核心優勢。 DOCA 培育的開放生態系統促進了協作和互操作性,創造了各種互補解決方案。合作伙伴可以探索 AI 驅動的網絡、高級安全性和高性能存儲等新興市場,將自己定位在數據中心創新前沿。 DOCA 2.9 的最新版本標志著 AI 計算結構和云計算基礎設施的重大進步。這次全面更新引入了許多新功能和改進,

Source

]]>
12041
人人超碰97caoporen国产