對 NVIDIA Spectrum-X 進行 AI 網絡性能基準測試，現已可從 Supermicro 獲取

NVIDIA Spectrum-X 網絡平臺作為超大規模云基礎設施中的 AI 量身打造的領先網絡平臺，NVIDIA 正在迅速獲得吸引力。Spectrum-X 網絡技術幫助企業客戶加速生成式 AI 工作負載。NVIDIA 宣布，該平臺在 2023 年 11 月新聞稿以及由 Spectrum-X 提供支持的 NVIDIA Israel-1 超級計算機的更新。

NVIDIA 現在宣布 Supermicro 已作為 Spectrum-X 平臺的 OEM 合作伙伴加入。Spectrum-X 將納入 Supermicro GPU 超級服務器，提供 4U、5U 和 8U 外形尺寸，并將支持 NVIDIA GPU 在 NVIDIA HGX H100，NVIDIA H100 和 NVIDIA L40S PCIe 外形規格。

這些 Supermicro 系統通過提供出色的網絡性能、確保多租戶性能隔離和提高能效，顯著縮短了基于 Transformer 的大型生成式 AI 模型的訓練和推理時間。這些進步是在遵守以太網網絡標準并利用 NVIDIA Spectrum-4 以太網交換機和 NVIDIA BlueField-3 SuperNIC。

NVIDIA 期待與 Supermicro 合作，為我們的聯合 AI 云和超大規模基礎設施客戶帶來更高的價值。

NVIDIA Spectrum-X 性能基準測試

隨著 NVIDIA Israel-1 數據中心的持續開發，我們執行了各種基準測試，這些測試突出了 Spectrum-X 的性能優勢。初步結果非常好，詳情如下。

基本網絡運行狀況 (RDMA)

第一個基準測試展示了系統的基本網絡運行狀況。AI 工作負載圍繞使用 GPU 構建，需要 GPU (及其板載顯存)與將服務器連接到網絡的網卡之間進行高帶寬、低延遲的通信。

RDMA 對分是表明網絡已為 AI 做好準備的關鍵指標，Spectrum-X 在此類別中表現出色。與傳統以太網相比，它提供的有效帶寬提高了 4 倍，延遲降低了 4 倍。傳統以太網包括 RDMA 以及擁塞通知和流量控制等優化。

Two bar charts in green, light gray, and dark gray showing relationship between RDMA bisection and Traditional Ethernet and NVIDIA Spectrum-X. — 圖 1、*RDMA 對分交叉可擴展單元。與傳統以太網相比， NVIDIA Spectrum-X 可實現高達 4.6 倍的帶寬和低達 4.5 倍的延遲*

AI 集合性能

除了 RDMA 性能之外，NVIDIA 還基于 NVIDIA 集合通信庫(NCCL)測試了 AI 基元的性能。跨多個系統運行的 AI 工作負載利用 NCCL 操作(例如 all-to-all 和 all-reduce)更新單個 GPU 中的模型參數，并確保橫向擴展訓練和推理的同步。

借助 Spectrum-X，@NCCL 運算相比傳統以太網有顯著提升。在多個工作負載同時通過網絡進行通信的雜 AI 云場景中，它們還展示了一致且可預測的性能。

事實上，Spectrum-X 在無噪點和無噪點場景中均表現出穩定的高性能。相比之下，傳統以太網在不同運行場景中的性能差異高達 20%。

Two bar graphs in green, light gray, and dark gray showing relationship between NCCL all-reduce isolation and traditional Ethernet and NVIDIA Spectrum-X. — 圖 2、*適用于 NCCL all-to-all 或 all-reduce 隔離的 AI 云性能。Spectrum-X 提供噪聲隔離，確保與無噪點場景幾乎相同的性能*

大型語言模型性能

雖然 RDMA 對分和 AI 集合操作很重要，但最重要的結果是在應用程序級別。Spectrum-X 是否會加速大型語言模型 (LLM) 訓練工作負載？事實上，它確實如此。對于兩者 NVIDIA NeMo Spectrum-X 可顯著提升性能，縮短分步迭代時間，同時縮短訓練時間和獲得見解的時間。

Two bar charts in green, light gray, and dark gray showing relationship between AI cloud isolation time and traditional Ethernet and NVIDIA Spectrum-X. — 圖 3、*AI 云工作負載性能隔離。Spectrum-X 加速迭代時間，用于訓練最常見的 AI 模型*

網絡恢復能力

Spectrum-X 通過網絡優化加速 AI，但同樣重要的是，要考慮網絡的彈性。AI 工作負載緊密合，需要所有節點的高有效帶寬才能獲得最佳性能。

當網絡鏈路或交換機發生故障時，AI 訓練可能會受到嚴重影響。必須迅速重新路由網絡通信，否則很大比例的 GPU 基礎設施將閑置，這會耗費時間和資金，并且可能需要從先前的檢查點重啟作業。

借助 Spectrum-X 路由機制，流量會從中斷鏈路轉移，并高效地分配到正常鏈路，從而將性能降低降至最低。相比之下，傳統以太網容易因網絡問題而受到嚴重且不成比例的減速，從而導致 GPU 基礎設施效率低下。

Graphic of AI Cloud Network (left) and bar graphs (right) showing AI network performance of NVIDIA Spectrum-X and traditional Ethernet. — 圖 4、*彈性的自適應路由性能。Spectrum-X 使用重新路由重新平衡 NCCL 流并避免故障路徑*

總結

正如這些初始基準測試所示，Spectrum-X 代表了使用以太網構建多租戶、超大規模 AI 云的突破性方法。此解決方案使組織能夠提高 AI 云的性能和能效，同時實現更高的可預見性和一致性。這反過來會加速 TTM 并增強競爭優勢。

了解詳情

想要了解更多信息？請通過線下或線上方式與我們聯系，親身或以虛擬身份參加 NVIDIA GTC 2024，體驗 NVIDIA 網絡平臺套件。與行業杰出人士、開發者、研究人員和商業戰略家聯系，幫助塑造 AI 和加速計算的未來發展。AI 大會將發布關于 NVIDIA 網絡進展的激動人心的公告、演示和教育會議。

推薦您查看這些內容：網絡會議。

適用于 AI 的網絡最佳實踐：來自云服務提供商的觀點– 面板【S62447】
為 AI 應用打造合適的存儲– 面板【S62476】
借助 InfiniBand 進入創新前沿【S62293】
通過優化的以太網 AI 網絡實現企業生成式 AI【S62521】
通過卸載到 BlueField DPU 加速 HPC 和 AI 應用：策略和優勢【S61956】
與專家交流：為 AI 時代選擇合適的網絡：網絡定義數據中心【CWE61202】

對 NVIDIA Spectrum-X 進行 AI 網絡性能基準測試，現已可從 Supermicro 獲取

NVIDIA Spectrum-X 性能基準測試

基本網絡運行狀況 (RDMA)

AI 集合性能

大型語言模型性能

網絡恢復能力

總結

了解詳情

相關資源

標簽

關于作者

對 NVIDIA Spectrum-X 進行 AI 網絡性能基準測試，現已可從 Supermicro 獲取

NVIDIA Spectrum-X 性能基準測試

基本網絡運行狀況 (RDMA)

AI 集合性能

大型語言模型性能

網絡恢復能力

總結

了解詳情

相關資源

標簽

關于作者

相關文章

使用 NVIDIA Spectrum-X 網絡平臺進行渦輪增壓生成 AI 工作負載

相關文章

將 AI-RAN 引入您附近的電信公司

借助 NVIDIA 集合通信庫實現顯存高效、快速初始化和成本估算優化 2.22

利用 NVIDIA Magnum IO NVSHMEM 3.0 實現跨平臺應用程序的可移植性和兼容性增強

實時神經接收器推動 AI-RAN 創新

NVIDIA Spectrum-X 加速大規模 AI 工作負載優化