• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    AI 平臺/部署

    AI 推理時代的 NVIDIA Blackwell Ultra

    多年來,AI 的進步一直通過預訓練擴展遵循清晰的軌跡:更大的模型、更多的數據和更豐富的計算資源帶來了突破性的功能。在過去 5 年中,預訓練擴展使計算需求以驚人的速度增加了 50M 倍。但是,構建更智能的系統不再只是預訓練更大的模型。相反,它是關于改進它們并讓它們思考。

    通過將 AI 模型優化為專門任務,后訓練擴展可改進模型,以提供更多對話式響應。使用特定領域的合成數據調整模型,可增強其理解細微上下文并提供準確輸出的能力。合成數據生成作為訓練模型的可用內容沒有上限,這意味著在后訓練擴展中需要大量計算資源。

    現在,一種增強智能的新 縮放定律 已經出現:測試時縮放(test-time scaling)。

    測試時擴展也稱為 長思考 ,可在 AI 推理過程中動態增加計算量,從而實現更深入的推理。AI 推理模型不僅能一次性生成答案,還能積極思考、權衡多種可能性,并實時優化答案。這讓我們更接近真正的代理式智能,即可以獨立思考和行動以處理更復雜的任務并提供更有用的答案的 AI。

    這種向后訓練擴展和測試時擴展的轉變,對計算、實時處理和高速互聯的需求呈指數級增長。為開發自定義衍生模型,后訓練所需的計算量可能比預訓練多 30 倍,而要解決極其復雜的任務,長思考所需的計算量可能比單次推理多 100 倍。

    Blackwell Ultra:NVIDIA GB300 NVL72

    為了滿足這一需求,NVIDIA 推出了 Blackwell Ultra ,這是一個專為 AI 推理時代打造的加速計算平臺,包括訓練、后訓練和測試時擴展。Blackwell Ultra 專為大規模 AI 推理而設計,可提供更智能、更快速、更高效的 AI,同時實現出色的 TCO。

    Blackwell Ultra 將成為 NVIDIA GB300 NVL72 系統 的核心,這是一種液冷、機架級解決方案,可在單個 72-GPU NVLink 域中連接 36 個 NVIDIA Grace CPU 和 72 個 Blackwell Ultra GPU,該域充當單個大型 GPU,NVLink 總帶寬為 130 TB/s。

    GB300 NVL72 與 GB200 NVL72 對比 與 HGX H100 對比
    FP4 推理 1 1.4 I 1.1 ExaFLOPS 1.5 倍 70 倍
    HBM 顯存 20 TB 1.5 倍 30 倍
    快速內存 40 TB 1.3 倍 65 倍
    網絡帶寬 14.4 TB/ 秒 2 倍 20 倍
    表 1。NVIDIA Blackwell Ultra 規格與 NVIDIA GB200 NVL72 和 NVIDIA HGX H100 的對比

    1使用稀疏技術 I 不使用稀疏技術

    Blackwell Ultra 可為實時、多智能體 AI 系統流程和長上下文推理提供更出色的 AI 推理性能。全新 Blackwell Ultra Tensor Cores 的 AI 計算浮點運算能力是 Blackwell GPUs 的 1.5 倍,GB300 NVL72 的 AI 計算浮點運算能力是 HGX H100 的 70 倍。Blackwell Ultra 支持多種 FP4 社區格式,可優化先進 AI 的內存使用量。

    Blackwell Ultra 為每個 GPU 提供高達 288 GB 的 HBM3e 內存,為每個 GB300 NVL72 機架提供高達 40 TB 的高速 GPU 和 CPU 一致性內存,為 AI、研究、實時分析等領域的突破打開了大門。它提供了同時為許多大型模型提供服務所需的大規模內存,并能同時處理來自許多并發用戶的大量復雜任務,從而提高性能并降低延遲。

    Blackwell Ultra Tensor Cores 還具有比 Blackwell 高 2 倍的注意力層加速,可處理大量端到端上下文長度,這對于實時代理式和推理 AI 應用處理數百萬個輸入令牌至關重要。

    經過優化的大規模、多節點推理

    在大規模 GPU 部署中高效編排和協調 AI 推理請求對于在 AI 工廠中最大限度地降低運營成本并最大限度地提高基于令牌的創收至關重要。

    為了支持這些優勢,Blackwell Ultra 采用 PCIe Gen6 連接和 NVIDIA ConnectX-8 800G SuperNIC ,將可用網絡帶寬提高到 800Gb/s。

    更高的網絡帶寬意味著更高的大規模性能。利用 NVIDIA Dynamo ,一個開源庫來擴展推理 AI 服務。Dynamo 是一個模塊化的推理框架,用于在多節點環境中服務 AI 模型。它可以跨 GPU 節點擴展推理工作負載,并動態分配 GPU worker,以緩解流量瓶頸。

    Dynamo 還具有解服務功能,可跨 GPU 將大語言模型 (LLM) 推理的上下文 (prefill) 和生成 (decode) 階段分離開來,以 優化性能 、更輕松地擴展并降低成本。

    GB300 NVL72 可為系統中的每個 GPU 提供 800 Gb/s 的總數據吞吐量,與 NVIDIA Quantum-X800 和 NVIDIA Spectrum-X 網絡平臺 無縫集成,使 AI 工廠和云數據中心能夠輕松應對三大擴展定律的需求。

    AI 工廠輸出提高 50 倍

    A chart compares NVIDIA Hopper and Blackwell Ultra, showing a 50x increase in AI factory output. The vertical axis represents tokens per second for 1 Megawatt, while the horizontal axis represents tokens per second for one user. A revenue curve indicates increased output moving from Hopper to Blackwell Ultra.
    圖 1。與 Hopper 相比,使用 GB300 NVL72 時,AI 工廠輸出增加了 50 倍

    圖 1 顯示了兩個關鍵參數,這些參數決定了最大限度地提高 AI 工廠輸出的多個操作點。垂直軸表示 1 兆瓦 (MW) 數據中心的每秒吞吐量令牌,而水平軸則通過單個用戶的每秒令牌數 (TPS) 來量化用戶交互響應速度。

    與 Hopper 相比,配備 NVIDIA GB300 NVL72 的 AI 工廠的每位用戶的 TPS 將提高 10 倍,每兆瓦的 TPS 將提高 5 倍。這種組合效應使 AI 工廠輸出性能的整體潛力提升了 50 倍。

    總結

    借助 Blackwell Ultra 加快 AI 推理速度,可在金融、醫療健康和電子商務等行業實現實時見解、更智能、響應更靈敏的聊天機器人、增強的預測分析,并提高 AI 智能體的生產力。借助這個先進的平臺,企業組織能夠在不犧牲速度的情況下處理更大的模型和 AI 推理工作負載,使先進的 AI 功能更易于使用,更實用于現實世界的應用。

    NVIDIA Blackwell Ultra 產品預計將于 2025 年下半年從合作伙伴處發售,并將得到各大云服務提供商和服務器制造商的支持。有關更多信息,請參閱以下資源:

    ?

    0

    標簽

    人人超碰97caoporen国产