NVIDIA Spectrum-X 網絡平臺作為超大規模云基礎設施中的 AI 量身打造的領先網絡平臺,NVIDIA 正在迅速獲得吸引力。Spectrum-X 網絡技術幫助企業客戶加速生成式 AI 工作負載。NVIDIA 宣布,該平臺在 2023 年 11 月新聞稿 以及由 Spectrum-X 提供支持的 NVIDIA Israel-1 超級計算機的更新。
NVIDIA 現在宣布 Supermicro 已作為 Spectrum-X 平臺的 OEM 合作伙伴加入。Spectrum-X 將納入 Supermicro GPU 超級服務器,提供 4U、5U 和 8U 外形尺寸,并將支持 NVIDIA GPU 在 NVIDIA HGX H100,NVIDIA H100 和 NVIDIA L40S PCIe 外形規格。
?
這些 Supermicro 系統通過提供出色的網絡性能、確保多租戶性能隔離和提高能效,顯著縮短了基于 Transformer 的大型生成式 AI 模型的訓練和推理時間。這些進步是在遵守以太網網絡標準并利用 NVIDIA Spectrum-4 以太網交換機和 NVIDIA BlueField-3 SuperNIC。
NVIDIA 期待與 Supermicro 合作,為我們的聯合 AI 云和超大規模基礎設施客戶帶來更高的價值。
NVIDIA Spectrum-X 性能基準測試
隨著 NVIDIA Israel-1 數據中心的持續開發,我們執行了各種基準測試,這些測試突出了 Spectrum-X 的性能優勢。初步結果非常好,詳情如下。
基本網絡運行狀況 (RDMA)
第一個基準測試展示了系統的基本網絡運行狀況。AI 工作負載圍繞使用 GPU 構建,需要 GPU (及其板載顯存)與將服務器連接到網絡的網卡之間進行高帶寬、低延遲的通信。
RDMA 對分是表明網絡已為 AI 做好準備的關鍵指標,Spectrum-X 在此類別中表現出色。與傳統以太網相比,它提供的有效帶寬提高了 4 倍,延遲降低了 4 倍。傳統以太網包括 RDMA 以及擁塞通知和流量控制等優化。

AI 集合性能
除了 RDMA 性能之外,NVIDIA 還基于 NVIDIA 集合通信庫(NCCL)測試了 AI 基元的性能。跨多個系統運行的 AI 工作負載利用 NCCL 操作(例如 all-to-all 和 all-reduce)更新單個 GPU 中的模型參數,并確保橫向擴展訓練和推理的同步。
借助 Spectrum-X,@NCCL 運算相比傳統以太網有顯著提升。在多個工作負載同時通過網絡進行通信的雜 AI 云場景中,它們還展示了一致且可預測的性能。
事實上,Spectrum-X 在無噪點和無噪點場景中均表現出穩定的高性能。相比之下,傳統以太網在不同運行場景中的性能差異高達 20%。

大型語言模型性能
雖然 RDMA 對分和 AI 集合操作很重要,但最重要的結果是在應用程序級別。Spectrum-X 是否會加速大型語言模型 (LLM) 訓練工作負載?事實上,它確實如此。對于兩者 NVIDIA NeMo Spectrum-X 可顯著提升性能,縮短分步迭代時間,同時縮短訓練時間和獲得見解的時間。

網絡恢復能力
Spectrum-X 通過網絡優化加速 AI,但同樣重要的是,要考慮網絡的彈性。AI 工作負載緊密合,需要所有節點的高有效帶寬才能獲得最佳性能。
當網絡鏈路或交換機發生故障時,AI 訓練可能會受到嚴重影響。必須迅速重新路由網絡通信,否則很大比例的 GPU 基礎設施將閑置,這會耗費時間和資金,并且可能需要從先前的檢查點重啟作業。
借助 Spectrum-X 路由機制,流量會從中斷鏈路轉移,并高效地分配到正常鏈路,從而將性能降低降至最低。相比之下,傳統以太網容易因網絡問題而受到嚴重且不成比例的減速,從而導致 GPU 基礎設施效率低下。

總結
正如這些初始基準測試所示,Spectrum-X 代表了使用以太網構建多租戶、超大規模 AI 云的突破性方法。此解決方案使組織能夠提高 AI 云的性能和能效,同時實現更高的可預見性和一致性。這反過來會加速 TTM 并增強競爭優勢。
了解詳情
想要了解更多信息?請通過線下或線上方式與我們聯系,親身或以虛擬身份參加 NVIDIA GTC 2024,體驗 NVIDIA 網絡平臺套件。與行業杰出人士、開發者、研究人員和商業戰略家聯系,幫助塑造 AI 和加速計算的未來發展。AI 大會將發布關于 NVIDIA 網絡進展的激動人心的公告、演示和教育會議。
?
推薦您查看這些內容:網絡會議。
- 適用于 AI 的網絡最佳實踐:來自云服務提供商的觀點– 面板【S62447】
- 為 AI 應用打造合適的存儲– 面板【S62476】
- 借助 InfiniBand 進入創新前沿【S62293】
- 通過優化的以太網 AI 網絡實現企業生成式 AI【S62521】
- 通過卸載到 BlueField DPU 加速 HPC 和 AI 應用:策略和優勢【S61956】
- 與專家交流:為 AI 時代選擇合適的網絡:網絡定義數據中心【CWE61202】
?