• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • Uncategorized

    對 NVIDIA Spectrum-X 進行 AI 網絡性能基準測試,現已可從 Supermicro 獲取

    NVIDIA Spectrum-X 網絡平臺作為超大規模云基礎設施中的 AI 量身打造的領先網絡平臺,NVIDIA 正在迅速獲得吸引力。Spectrum-X 網絡技術幫助企業客戶加速生成式 AI 工作負載。NVIDIA 宣布,該平臺在 2023 年 11 月新聞稿 以及由 Spectrum-X 提供支持的 NVIDIA Israel-1 超級計算機的更新。

    NVIDIA 現在宣布 Supermicro 已作為 Spectrum-X 平臺的 OEM 合作伙伴加入。Spectrum-X 將納入 Supermicro GPU 超級服務器,提供 4U、5U 和 8U 外形尺寸,并將支持 NVIDIA GPU 在 NVIDIA HGX H100,NVIDIA H100 和 NVIDIA L40S PCIe 外形規格。

    ?

    這些 Supermicro 系統通過提供出色的網絡性能、確保多租戶性能隔離和提高能效,顯著縮短了基于 Transformer 的大型生成式 AI 模型的訓練和推理時間。這些進步是在遵守以太網網絡標準并利用 NVIDIA Spectrum-4 以太網交換機和 NVIDIA BlueField-3 SuperNIC

    NVIDIA 期待與 Supermicro 合作,為我們的聯合 AI 云和超大規模基礎設施客戶帶來更高的價值。

    NVIDIA Spectrum-X 性能基準測試

    隨著 NVIDIA Israel-1 數據中心的持續開發,我們執行了各種基準測試,這些測試突出了 Spectrum-X 的性能優勢。初步結果非常好,詳情如下。

    基本網絡運行狀況 (RDMA)

    第一個基準測試展示了系統的基本網絡運行狀況。AI 工作負載圍繞使用 GPU 構建,需要 GPU (及其板載顯存)與將服務器連接到網絡的網卡之間進行高帶寬、低延遲的通信。

    RDMA 對分是表明網絡已為 AI 做好準備的關鍵指標,Spectrum-X 在此類別中表現出色。與傳統以太網相比,它提供的有效帶寬提高了 4 倍,延遲降低了 4 倍。傳統以太網包括 RDMA 以及擁塞通知和流量控制等優化。

    Two bar charts in green, light gray, and dark gray showing relationship between RDMA bisection and Traditional Ethernet and NVIDIA Spectrum-X.
    圖 1、RDMA 對分交叉可擴展單元。與傳統以太網相比, NVIDIA Spectrum-X 可實現高達 4.6 倍的帶寬和低達 4.5 倍的延遲

    AI 集合性能

    除了 RDMA 性能之外,NVIDIA 還基于 NVIDIA 集合通信庫(NCCL)測試了 AI 基元的性能。跨多個系統運行的 AI 工作負載利用 NCCL 操作(例如 all-to-all 和 all-reduce)更新單個 GPU 中的模型參數,并確保橫向擴展訓練和推理的同步。

    借助 Spectrum-X,@NCCL 運算相比傳統以太網有顯著提升。在多個工作負載同時通過網絡進行通信的雜 AI 云場景中,它們還展示了一致且可預測的性能。

    事實上,Spectrum-X 在無噪點和無噪點場景中均表現出穩定的高性能。相比之下,傳統以太網在不同運行場景中的性能差異高達 20%。

    Two bar graphs in green, light gray, and dark gray showing relationship between NCCL all-reduce isolation and traditional Ethernet and NVIDIA Spectrum-X.
    圖 2、適用于 NCCL all-to-all 或 all-reduce 隔離的 AI 云性能。Spectrum-X 提供噪聲隔離,確保與無噪點場景幾乎相同的性能

    大型語言模型性能

    雖然 RDMA 對分和 AI 集合操作很重要,但最重要的結果是在應用程序級別。Spectrum-X 是否會加速大型語言模型 (LLM) 訓練工作負載?事實上,它確實如此。對于兩者 NVIDIA NeMo Spectrum-X 可顯著提升性能,縮短分步迭代時間,同時縮短訓練時間和獲得見解的時間。

    Two bar charts in green, light gray, and dark gray showing relationship between AI cloud isolation time and traditional Ethernet and NVIDIA Spectrum-X.
    圖 3、AI 云工作負載性能隔離。Spectrum-X 加速迭代時間,用于訓練最常見的 AI 模型

    網絡恢復能力

    Spectrum-X 通過網絡優化加速 AI,但同樣重要的是,要考慮網絡的彈性。AI 工作負載緊密合,需要所有節點的高有效帶寬才能獲得最佳性能。

    當網絡鏈路或交換機發生故障時,AI 訓練可能會受到嚴重影響。必須迅速重新路由網絡通信,否則很大比例的 GPU 基礎設施將閑置,這會耗費時間和資金,并且可能需要從先前的檢查點重啟作業。

    借助 Spectrum-X 路由機制,流量會從中斷鏈路轉移,并高效地分配到正常鏈路,從而將性能降低降至最低。相比之下,傳統以太網容易因網絡問題而受到嚴重且不成比例的減速,從而導致 GPU 基礎設施效率低下。

    Graphic of AI Cloud Network (left) and bar graphs (right) showing AI network performance of NVIDIA Spectrum-X and traditional Ethernet.
    圖 4、彈性的自適應路由性能。Spectrum-X 使用重新路由重新平衡 NCCL 流并避免故障路徑

    總結

    正如這些初始基準測試所示,Spectrum-X 代表了使用以太網構建多租戶、超大規模 AI 云的突破性方法。此解決方案使組織能夠提高 AI 云的性能和能效,同時實現更高的可預見性和一致性。這反過來會加速 TTM 并增強競爭優勢。

    了解詳情

    想要了解更多信息?請通過線下或線上方式與我們聯系,親身或以虛擬身份參加 NVIDIA GTC 2024,體驗 NVIDIA 網絡平臺套件。與行業杰出人士、開發者、研究人員和商業戰略家聯系,幫助塑造 AI 和加速計算的未來發展。AI 大會將發布關于 NVIDIA 網絡進展的激動人心的公告、演示和教育會議。

    ?

    推薦您查看這些內容:網絡會議

    ?

    0

    標簽

    人人超碰97caoporen国产