GB200 – NVIDIA 技術博客

NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍

Wed, 02 Apr 2025 05:32:46 +0000

在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下，大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時，隨著 AI 采用率的增長， AI 工廠能否為盡可能多的用戶提供服務，同時保持良好的每位用戶體驗，是更大限度地提高其價值的關鍵。要在最新模型上實現高推理吞吐量和低推理延遲，需要在涵蓋芯片、網絡系統和軟件的整個技術堆棧中表現出色。 MLPerf Inference v5.0 是長期運行的基準套件中的最新版本，可測量一系列不同模型和用例的推理吞吐量。于 2019 年首次推出的 MLPerf Inference 不斷更新新的模型和場景，以確保它仍然是衡量 AI 計算平臺推理性能的有用工具。本輪測試新增三個新的基準測試：這些新基準測試加入了涵蓋各種模型和用例的眾多返回基準測試：ResNet-50、RetinaNet、3D U-Net、DLRMv2、

Source

]]>

借助 NVIDIA Mission Control 實現 AI 工廠自動化

Tue, 25 Mar 2025 08:51:04 +0000

DeepSeek-R1 等先進的 AI 模型證明，企業現在可以構建專用于自己的數據和專業知識的尖端 AI 模型。這些模型可以根據獨特的用例進行定制，以前所未有的方式應對各種挑戰。基于早期 AI 采用者的成功，許多組織正在將重點轉移到全面生產的 AI 工廠。然而，創建高效 AI 工廠的過程復雜且耗時，并且不同于構建特定于垂直行業的 AI 的目標。它涉及到樓宇自動化，用于調配和管理復雜的基礎設施，在最新平臺上維護具有專業技能的站點可靠性工程師（SRE）團隊，以及大規模開發流程以實現超大規模的效率。此外，開發者需要一種方法來利用 AI 基礎設施的強大功能，同時具備超大規模數據中心的敏捷性、效率和規模，同時避免成本、復雜性和專業知識等方面的負擔。本文將介紹 NVIDIA Mission Control (一個為使用 NVIDIA 參考架構構建的 AI…

Source

]]>

隆重推出 NVIDIA Dynamo：用于擴展推理AI模型的低延遲分布式推理框架

Tue, 18 Mar 2025 05:47:45 +0000

NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、低延遲的開源推理服務框架，用于在大規模分布式環境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上運行開源 DeepSeek-R1 模型時，該框架最多可將請求數量提升 30 倍。NVIDIA Dynamo 與 PyTorch、SGLang 等開源工具兼容， NVIDIA TensorRT-LLM 和 vLLM，加入不斷擴大的推理工具社區，助力開發者和 AI 研究人員加速 AI。 NVIDIA Dynamo 引入了幾項關鍵創新，包括：從今天開始，NVIDIA Dynamo 可供開發者在 ai-dynamo/dynamo GitHub 存儲庫中使用。對于希望縮短生產時間并獲得企業級安全性、支持和穩定性的企業，

Source

]]>

借助 NVIDIA 全棧解決方案提升 AI 推理性能

Tue, 24 Dec 2024 05:43:02 +0000

AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求，他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。 NVIDIA 正在為開發者提供涵蓋芯片、系統和軟件的全棧創新，重新定義 AI 推理的可能性，使其比以往更快、更高效、更具可擴展性。六年前，NVIDIA 著手打造 AI 推理服務器，專為構建高吞吐量、延遲關鍵型生產應用的開發者而設計。當時，許多開發者都在努力使用定制的、特定于框架的服務器，這些服務器增加了復雜性，增加了運營成本，并且難以滿足嚴格的服務水平協議（service-level agreements）關于延遲和吞吐量的要求。為解決這一問題，NVIDIA 開發了 NVIDIA Triton Inference Server ，這是一個開源平臺，能夠為來自任何 AI 框架的模型提供服務。通過整合特定于框架的推理服務器，

Source

]]>

NVIDIA Blackwell 在 MLPerf 訓練 v4.1 中將 LLM 訓練性能提高一倍

Wed, 13 Nov 2024 07:46:17 +0000

隨著模型規模的擴大以及使用更多數據進行訓練，它們的能力也隨之提升，實用性也隨之提升。為了快速訓練這些模型，需要在數據中心規模上提供更高的性能。NVIDIA Blackwell 平臺在 2024 年 GTC 大會上推出，現已全面投產，集成了七類芯片：GPU、CPU、DPU、NVLink Switch 芯片、InfiniBand Switch 和 Ethernet Switch。Blackwell 平臺在每個 GPU 的性能方面實現了巨大飛躍，旨在支持創建更大規模的 AI 集群，從而推動下一代 LLM 的開發。在最新一輪的 MLPerf 訓練 (一套 AI 訓練基準測試) 中，NVIDIA 使用 Blackwell 平臺首次提交了基準測試預覽類別的測試結果。這些結果表明，在每個 MLPerf 訓練基準測試中，與基于 Hopper 的提交相比，每個加速器的提升幅度很大。

Source

]]>

NVIDIA Grace CPU 實現全球頂級數據中心性能和突破性能效優勢

Wed, 09 Oct 2024 05:11:03 +0000

NVIDIA 將 NVIDIA Grace CPU 設計為一種新型高性能數據中心 CPU，旨在提供突破性的能效，并針對數據中心規模的性能進行了優化。與傳統 CPU 計算相比，加速計算在性能和能效方面實現了巨大的飛躍。為了實現這些加速，需要數據中心規模的全棧創新，涵蓋芯片、系統、軟件和算法。為適合的工作負載選擇合適的架構并提供出色的節能性能對于最大限度地提高數據中心的性能和最小化占用空間至關重要。隨著工作負載的加速程度不斷提高，目前仍有一些用例主要在傳統 CPU 上運行，尤其是圖形分析等稀疏和“分支”序列化任務的代碼。與此同時，數據中心受到越來越多的電力限制，限制了其能力的增長。這意味著所有可以加速的工作負載都應該加速。那些無法加速的工作負載必須在盡可能高效的計算上運行，而 CPU 必須針對這些工作負載進行優化。

Source

]]>

將 AI-RAN 引入您附近的電信公司

Tue, 08 Oct 2024 07:54:36 +0000

生成式 AI 和 AI 智能體的推理將推動 AI 計算基礎設施從邊緣分配到中央云的需求。 IDC 預測，“商業 AI (消費者除外) 將為全球經濟貢獻 19.9 萬億美元，并占 GDP 的 3.5% 直到 2030 年。” 5G 網絡還必須不斷發展，以服務于新傳入的人工智能流量。在此過程中，電信公司有機會成為托管企業人工智能工作負載的本地人工智能計算基礎設施，獨立于網絡連接，同時滿足其數據隱私和主權要求。這是加速計算基礎設施的亮點所在，能夠加速無線電信號處理和人工智能工作負載。最重要的是，相同的計算基礎設施可用于處理人工智能和無線電接入網（RAN）服務。這種組合被電信行業稱為 AI-RAN 。 NVIDIA 正在推出 Aerial RAN Computer-1，這是全球首個 AI-RAN 部署平臺，可以在通用加速基礎設施上同時服務 AI 和 RAN 工作負載。

Source

]]>