在當今迅速發展的技術格局中,保持領先地位不僅僅是一個目標——這是一個必要條件。創新浪潮,尤其是 AI 領域的創新,正在推動整個技術堆棧的巨大變革。
見證深刻變革的一個領域是以太網(Ethernet)網絡,這是數字通信的基石,數十年來一直是企業和數據中心環境的基礎。
如今,每個數據中心都在加速,以支持現代 AI 工作負載,從而增加了對支持這些工作負載的基礎設施的需求。許多企業已經非常熟悉 Ethernet,將其作為可信網絡標準。然而,他們缺乏一種解決方案來充分支持使用 Ethernet 協議的 AI 工作負載的特性。
NVIDIA 的創新愿望通常是出于對理解和響應客戶不斷變化的需求的深刻承諾,確保我們的解決方案不僅滿足而且可以預測并超過預期。
進入 NVIDIA Spectrum-X 時代,NVIDIA Spectrum-X 是全球首款高性能以太網結構,旨在實現不僅僅是增量的改進。它們代表著重大飛躍,確保以太網在數據呈指數級增長的時代仍然是一種可靠的、面向未來的技術。
從概念到實現的性能
由于 AI 工作負載需要不斷增加的數據吞吐量和零尾延遲,因此必須重塑傳統的以太網以滿足嚴格的要求。必須大規模利用、部署和驗證 Remote Direct Memory Access (RDMA) 協議的進步、平衡大型網絡流量以及更好的擁塞控制方法等方面的考慮因素。
雖然以太網已經被用于大規模超大規模云和數據中心,但實際上它只能支持單個服務器或小型工作負載。傳統以太網本質上是一種有損網絡,在擴展AI等分布式計算工作負載時,會帶來重大挑戰。
為了解決傳統以太網的這些缺點,我們開始開發新技術和功能,將NVIDIA以太網產品轉變為高性能計算結構,能夠支持加速計算的嚴格要求。
NVIDIA Spectrum-X 代表了傳統以太網的重大進步,它被專門設計為一種端到端架構,用于優化 AI 工作負載。它使用 NVIDIA BlueField-3 SuperNIC 端點與 NVIDIA Spectrum-4 交換機協同工作,并特別增強了數據中心環境中的 GPU 到 GPU 通信(也稱為東西向網絡流量)。
以下是我們不同的做法:
- 基于遙測的擁塞控制
- 無損網絡
- 動態負載均衡
基于遙測的擁塞控制
通過將高頻遙測探針與流量測量相結合,Spectrum-X擁塞控制可確保工作負載得到保護,并確保網絡提供性能隔離。這意味著各種類型的AI工作負載可以同時在共享基礎設施上運行,而不會對性能產生負面影響。
無損網絡
Spectrum-X 可將網絡配置為實現無損條件,從而確保不丟棄數據包并最大限度地降低尾端延遲。尾端延遲是指一組并行任務中速度最慢的任務所經歷的延遲,最后決定操作的整體完成時間。
動態負載均衡
Spectrum-X 使用細粒度自適應路由來最大限度地提高網絡利用率,并確保以太網的最高有效帶寬。自適應路由通過在整個網絡中實現逐包負載均衡,避免了傳統以太網中靜態路由(等價多路徑,即 ECMP)或流路由的陷阱,而無需深度緩沖區和避震器。
由于負載均衡意味著數據包可以亂序地到達目的地,因此 NVIDIA BlueField-3 SuperNIC 可確保重新排序數據包,并將其放置在主機內存中,從而使應用程序無法察覺重新排序。
Spectrum-X 首次搭載 Israel-1 超級計算機
2023 年 6 月,NVIDIA Spectrum-X 首次亮相 Israel-1 超級計算機。Israel-1 展示了一種新型以太網,可將網絡性能提升 1.6 倍,展示其處理大規模 AI 的能力。
自 Spectrum-X 創建以來,NVIDIA 團隊(包括一些世界知名的網絡專家)一直在對應用程序進行全天候測試和基準測試,他們不斷優化 Spectrum-X,以在各種規模下實現絕對最低的運行時間。
生態系統實現可持續發展
Israel-1 帶來的性能提升讓我們的原始設備制造商 (OEM) 和解決方案提供商興奮不已。這也讓我們的大型云客戶大吃一驚。這迅速促使我們的全球合作伙伴與我們合作,將 Spectrum-X 集成到他們的數據中心解決方案中。
這標志著我們的合作伙伴開始廣泛采用 Spectrum-X,他們認識到 Spectrum-X 針對 AI 工作負載優化網絡的優勢,并將其納入其產品系列。
客戶對 Spectrum-X 的性能贊不絕口
Spectrum-X 能夠優化大規模 AI 工作負載并提高數據中心的性能,因此吸引了早期客戶。通過與我們的 OEM 密切合作,多家頂級云服務提供商率先部署了 Spectrum-X,認識到它在增強其 AI 基礎設施的同時顯著降低總體 TCO 的潛力。
近期的示例包括:
- 采用 NVIDIA 技術的戴爾 AI 工廠:將戴爾的計算、存儲、軟件和服務與 NVIDIA 先進的 AI 基礎架構相結合。
- HPE 推出的 NVIDIA AI 計算:旨在加速生成式 AI 工業革命。
NVIDIA 在部署大規模集成系統(包括用于自身開發和研究的系統)方面擁有成熟的經驗,我們發布這些參考架構,以幫助我們的合作伙伴和客戶采用加速計算。
我們還通過 NVIDIA 基礎設施服務 (NVIS) 提供出色的基礎設施服務。憑借 2560 個經過全面測試和互聯的 GPU/天的安裝率,使用 NVIS 的客戶可以在幾天內快速啟動和運行,從硬件購買到訓練 LLM 的整個流程。
結束語
Spectrum-X 的發展歷程還處于起步階段。隨著我們的發展,NVIDIA 繼續借助 Spectrum-X 進行創新,在構建 AI 工廠、生成式 AI 云和企業 AI 數據中心方面發揮著關鍵作用。Spectrum-X 平臺樹立了標準,提供了無與倫比的性能和效率。
有關 NVIDIA Spectrum-X 的更多信息,請下載 NVIDIA Spectrum-X 網絡平臺架構:首個旨在加速 AI 工作負載的以太網網絡白皮書。
?