• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 數據中心/云端

    NVIDIA GB200 NVL72 提供萬億參數 LLM 訓練和實時推理

    對萬億參數模型的興趣是什么?我們知道當今的許多用例,并且由于有望提高以下方面的能力,人們的興趣正在增加:

    • 自然語言處理任務,例如翻譯、問答、抽象和流暢性。
    • 掌握長期背景和對話能力。
    • 結合語言、視覺和語音的多模態應用。
    • 創意應用,如敘事、詩歌生成和代碼生成。
    • 科學應用,例如蛋白質折疊預測和藥物研發。
    • 個性化,能夠培養一致的個性并記住用戶上下文。

    其優勢是巨大的,但訓練和部署大型模型的計算成本高昂且需要大量資源。旨在提供實時推理的計算高效、經濟高效且節能的系統對于廣泛部署至關重要。新的 NVIDIA GB200 NVL72 就是這樣一個系統,可以完成這項任務。

    為了說明這一點,我們考慮一下多專家模型 (MoE).這些模型有助于在多個專家之間分配計算負載,并使用模型并行和管道并行跨數千個 GPU 進行訓練。提高系統效率。

    然而,并行計算、高速顯存和高性能通信的新水平可以使 GPU 集群能夠應對棘手的技術挑戰。 NVIDIA GB200 NVL72 機架級架構實現了這一目標,我們將在以下博文中詳細介紹。

    適用于百億億級 (Exascale) AI 超級計算機的機架級設計

    核心 GB200 NVL72 是 NVIDIA GB200 Grace Blackwell 超級芯片。它將兩個高性能 NVIDIA Blackwell Tensor Core GPU 和 NVIDIA Grace CPU 通過 NVLink 芯片到芯片 (C2C) 接口連接,可提供 900 GB/s 的雙向帶寬。借助 NVLink-C2C,應用程序可以一致地訪問統一內存空間。這簡化了編程,并支持萬億參數 LLM、用于多模態任務的 Transformer 模型、用于大規模模擬的模型和用于 3D 數據的生成模型的更大內存需求。

    GB200 計算托盤基于新的 NVIDIA MGX 設計。它包含兩個 Grace CPU 和四個 Blackwell GPU.GB200 具有冷卻板和液體冷卻接口,PCIe Gen 6 支持高速網絡,以及用于 NVLink 線纜盒的 NVLink 接口。GB200 計算托盤提供 80 petaflop 的 AI 性能和 1.7 TB 的快速內存。

    A GB200 compute node is shown exposing the two Grace Blackwell GB200 Superchips inside.
    圖 1.采用液冷技術的 GB200 計算托盤可實現節能高效的高性能計算密度

    最大的問題是需要足夠數量的突破性成果,這些成果使用 Blackwell GPU,因此它們必須以高帶寬和低延遲進行通信,并始終保持忙碌狀態。

    GB200 NVL72 機架級系統使用帶有 9 個 NVLink 交換機托盤的 NVIDIA NVLink Switch 系統以及互連 GPU 和交換機的線纜盒,提高了 18 個計算節點的并行模型效率。

    NVIDIA GB200 NVL36 和 NVL72

    GB200 在 NVLink 域中支持 36 個和 72 個 GPU.每個機架根據 MGX 參考設計和 NVLink Switch 系統托管 18 個計算節點。它采用 GB200 NVL36 配置,一個機架中包含 36 個 GPU,另一個 GB200 計算節點中包含 18 個單 GB200 計算節點。GB200 NVL72 在一個機架中配置 72 個 GPU,在兩個機架中配置 18 個雙 GB200 計算節點,即 72 個 GPU,其中有 18 個單 GB200 計算節點。

    GB200 NVL72 使用銅纜盒密集封裝和互連 GPU,以簡化操作。它還采用液冷系統設計,成本和能耗降低 25 倍。

    A GB200 NVL72 switch system is shown with 9 NVLink Switch Trays and a cable cartridge to deliver 130 TB/s of total NVLink bandwidth.
    圖 2、NVLink Switch 系統

    NVIDIA GB200 NVL72 引入了第五代 NVLink,可在單個 NVLink 域中連接多達 576 個 GPU,總帶寬超過 1 PB/s,快速內存超過 240 TB.每個 NVLink 交換機托盤提供 144 個 100 GB 的 NVLink 端口,因此 9 臺交換機可完全連接 72 個 Blackwell GPU 上的 18 個 NVLink 端口。

    每個 GPU 革命性的 1.8 TB/s 雙向吞吐量是 PCIe 5.0 帶寬的 14 倍以上,可為當今極為復雜的大型模型提供無縫高速通信。

    Switch tray image with two NVLink switch chips.
    圖 3.高速 NVLink Switch 互聯為 GPU 提供 1 PB/s 的聚合帶寬

    NVIDIA 行業領先的高速低功耗 SerDes 創新推動了 GPU 到 GPU 通信的發展,首先是推出 NVLink,以高速加速多 GPU 通信。NVLink GPU 到 GPU 帶寬為 1.8 TB/s,是 PCIe 帶寬的 14 倍。第五代 NVLink 比 2014 年推出的第一代 160 GB/s 快 12 倍。NVLink GPU 到 GPU 通信在擴展 AI 和 HPC 領域的多 GPU 性能方面發揮了重要作用。

    自 2014 年以來,GPU 帶寬的進步,加上 NVLink 域的指數級擴展,使得 576 Blackwell GPU NVLink 域的 NVLink 域的總帶寬增加了 900 倍,達到 1 PB/s。

    用例和性能結果

    GB200 NVL72 的計算和通信能力前所未有,使 AI 和 HPC 領域的重大挑戰觸手可及。

    AI 訓練

    GB200 包含速度更快的第二代 Transformer 引擎,具有 FP8 精度。與相同數量的 NVIDIA H100 GPU 相比,GB200 NVL72 可為 GPT-MoE-1.8 T 等大型語言模型提供 4 倍的訓練性能。

    AI 推理

    GB200 引入了先進的功能和第二代 Transformer 引擎,可加速 LLM 推理工作負載。與上一代 H100 相比,它將資源密集型應用程序 (例如 1.8 T 參數 GPT-MoE) 的速度提高了 30 倍。新一代 Tensor Core 引入了 FP4 精度和第五代 NVLink 帶來的諸多優勢,使這一進步成為可能

    A bar chart showing GB200 at 150 tokens/sec/GPU and H100 at 3.4 tokens/sec/GPU or 30X more real-time throughput.
    圖 4.與 H100 相比,GB200 可提供 30 倍的實時吞吐量

    結果基于令牌到令牌延遲=50 毫秒;第一個令牌實時延遲=5000 毫秒;輸入序列長度=32768;輸出序列長度=1024 路輸出,8 路 8 路 HGX H100 風冷:400 GB IB 網絡與 18 GB200 超級芯片液冷:NVL36,每個 GPU 性能比較*.預測性能可能會發生變化。

    相比于使用 GPT-MoE-1.8 T 的 GB200 NVL72 中的 32 個 Blackwell GPU,相比之下,30 倍加速是通過 8 路 NVLink 和 InfiniBand 擴展的 64 個 NVIDIA Hopper GPU。

    數據處理

    大數據分析有助于組織獲得見解并做出更明智的決策。組織不斷大規模生成數據,并依靠各種壓縮技術來緩解瓶頸并節省存儲成本。為了在 GPU 上高效處理這些數據集,Blackwell 架構引入了硬件解壓縮引擎,該引擎可以大規模地原生解壓縮壓縮數據,并加速端到端分析流程。解壓縮引擎原生支持使用 LZ4、Deflate 和 Snappy 壓縮格式解壓縮數據。

    解壓縮引擎可加快受內存限制的內核操作速度。它提供高達 800 GB/s 的性能,使 Grace Blackwell 的執行速度比 CPU (Sapphire Rapids) 快 18 倍,比 NVIDIA H100 Tensor Core GPU 在查詢基準測試中的執行速度快 6 倍。

    借助 8 TB/s 的高顯存帶寬和 Grace CPU 高速 NVlink 芯片到芯片 (C2C),該引擎可加快數據庫查詢的整個過程。這可在數據分析和數據科學用例中實現出色的性能。這使得組織能夠在降低成本的同時快速獲得見解。

    Bar chart with 3 columns for x86, H100, GB200 comparing queries per sec. 72 x86 is 68, 72xH100 is 390, and GB200 NVL72 is 1277, 18X more than x86.
    圖 5.對比 GB200 NVL72、72x H100 和 72×86 CPU 的數據庫連接查詢吞吐量

    基于物理性質的模擬

    基于物理性質的模擬仍然是產品設計和開發的中流柱。從飛機和火車到橋梁、硅芯片,甚至是藥物,通過模擬測試和改進產品可節省數十億美元。

    在漫長而復雜的工作流程中,特定于應用程序的集成電路幾乎完全在 CPU 上設計,包括用于識別電壓和電流的模擬分析。Cadence SpectreX 模擬器就是求解器的一個示例。下圖顯示了 SpectreX 在 GB200 上的運行速度比在 x86 CPU 上快 13 倍。

    A bar chart, showing CPU with a value of 1x and GB200 with a value of 13x.
    圖 6.Cadence SpectreX 模擬器在 GB200 上的運行速度比在 x86 CPU 上的運行速度快 13 倍

    Cadence SpectreX (Spice 模擬器) | CPU:16 核 AMD Milan 75F3 數據集:KeithC Design TSMC N5 | GB200 的性能預測可能會發生變化

    在過去兩年中,該行業越來越多地將 GPU 加速的計算流體動力學 (CFD) 作為關鍵工具。工程師和設備設計師使用它來研究和預測其設計行為。Cadence Fidelity 是一個大型渦流模擬器 (LES),在 GB200 上運行模擬的速度比 x86 CPU 快 22 倍。

    A bar chart, showing CPU with a value of 1x and GB200 with a value of 22x.
    圖 7.Cadence Fidelity 是一款適用于 CFD 應用的大型渦流模擬器,在 GB200 上運行模擬的速度比 x86 CPU 快 22 倍

    頻率保真度 (LES CFD 求解器) | CPU:16 核 AMD Milan 75F3 數據集:GearPump 200 萬單元 | GB200 的性能預測可能會發生變化

    我們期待在 GB200 NVL72 上探索 Cadence Fidelity 的可能性。憑借并行可擴展性和每個機架 30 TB 的顯存,我們的目標是捕獲從未捕獲過的流細節。

    總結

    回顧一下,我們回顧了 GB200 NVL72 機架級設計,并特別了解了其在單個 NVIDIA NVLink 域上連接 72 個 Blackwell GPU 的獨特功能。這減少了在通過傳統網絡進行擴展時產生的通信開銷。因此,可以對 1.8 T 參數 MoE LLM 進行實時推理,并且訓練該模型的速度加快 4 倍。

    72 塊通過 NVLink 連接的 Blackwell GPU 在 130 TB/s 的計算結構上運行,具有 30 TB 的統一顯存,可在單個機架中創建 exaFLOP 的 AI 超級計算機。它就是 NVIDIA GB200 NVL72。

    ?

    +3

    標簽

    人人超碰97caoporen国产