使用 NVIDIA Spectrum-X 網絡平臺進行渦輪增壓生成 AI 工作負載

大型語言模型（ LLM ）和人工智能應用程序，如ChatGPT和 DALL-E 最近出現了快速增長。由于 GPU 、 CPU 、 DPU 、高速存儲和人工智能優化的軟件創新，人工智能現在可以廣泛使用。你甚至可以在云端或內部部署人工智能。

然而，人工智能應用程序可能會對網絡造成很大負擔，這種增長給 CPU 和 GPU 服務器以及連接這些系統的現有底層網絡基礎設施帶來了負擔。

傳統的以太網雖然足以處理主流和企業應用程序，如網絡、視頻或音頻流，但沒有經過優化以支持新一代人工智能工作負載。傳統以太網是松耦合應用、低帶寬流和高抖動的理想選擇。它可能足以滿足異構流量（如網絡、視頻或音頻流、文件傳輸和游戲），但在出現超額訂閱時并不理想

NVIDIA Spectrum-X 網絡平臺從頭開始設計，以滿足人工智能應用程序的性能需求，是一種針對高速網絡性能、低延遲和規模進行優化的端到端解決方案。

NVIDIA Spectrum-X

NVIDIA Spectrum-X 網絡平臺是為了解決傳統以太網網絡的局限性而開發的。它是一種網絡結構，旨在滿足要求苛刻的人工智能應用程序的需求，用于緊密耦合的過程

這款經過 NVIDIA 認證和測試的端到端解決方案結合了一流的人工智能優化網絡硬件和軟件，提供了人工智能工作負載所需的可預測、一致和毫不妥協的性能水平

Graphic listing the benefits of NVIDIA Spectrum-X: NCCL-optimized RoCE extensions; tightly coupled switch + adapter synergy; advanced performance isolation; tuned for GPT, BERT, RetinaNet, and Spark; end-to-end provisioning for faster time to AI; NVIDIA certified and tested. — *圖 1 。 NVIDIA Spectrum-X 網絡平臺將 NVIDIA Spectrum-4 以太網交換機與 NVIDIA BlueField -3 DPU 相結合，為 AI 工作負載提供最佳性能*

NVIDIA Spectrum-X 是一種高度通用的技術，可用于各種人工智能應用程序。具體而言，它可以在以下用例中顯著提高 AI 集群的性能和效率：

GPT 和 BERT 有限責任
分布式訓練和并行處理
自然語言處理
計算機視覺
高性能模擬 (NVIDIA Omniverse和NVIDIA OVX)
高性能數據分析（ Spark ）
推理應用程序

NVIDIA Spectrum-X 平臺的兩個關鍵元素是NVIDIA Spectrum-4以太網交換機和NVIDIA BlueField-3 DPU

NVIDIA Spectrum-4 以太網交換機

NVIDIA Spectrum-4 以太網交換機為基于標準的以太網構建的 AI 集群提供了前所未有的應用性能。要充分發揮 NVIDIA Spectrum-4 的潛力，需要端到端、專門構建的網絡架構。只有 NVIDIA Spectrum-X 平臺提供了為超大規模人工智能提供動力所需的硬件加速器和卸載

NVIDIA Spectrum-4 以太網交換機基于 51 . 2 Tbps 的 Spectrum-4ASIC ，帶寬是上一代的 4 倍。它是世界上第一個以太網人工智能交換平臺。它是為人工智能工作負載設計的，將專門的高性能架構與標準以太網連接相結合

NVIDIA Spectrum-4 提供：

RoCE 擴展：具有獨特增強功能的 RoCE
- RoCE 自適應路由
- RoCE 性能隔離
- 簡化、自動化的自適應路由和 RoCE 配置
- 同步的集體
- HPC 增強的其他 RoCE
大規模以太網上的最高有效帶寬
低延遲、低抖動和短尾
確定性性能和性能隔離
全棧和端到端優化
NVIDIA Cumulus Linux 或 SONiC

Image of switch open with switches and chip visible. — *圖 2 : NVIDIA Spectrum-4 將專業的高性能架構與標準以太網連接相結合*

NVIDIA Spectrum-X 與 NVIDIA Spectrum-4 的主要優勢包括：

將 RoCE 擴展用于 AI 和自適應路由（ AR ），以實現 NVIDIA 集體通信庫（ NCCL ）的最大性能。
利用性能隔離來確保在多租戶和多作業環境中，一個作業不會影響另一個作業。
確保在出現網絡組件故障時，結構能夠繼續提供最高性能
與 BlueField -3 DPU 同步，實現最佳 NCCL 和 AI 性能
在各種人工智能工作負載下保持一致和穩定的性能，這對實現 SLA 至關重要。

端到端最佳網絡性能

要構建有效的人工智能計算結構，需要優化人工智能網絡的每一個部分，從 DPU 到交換機再到網絡軟件。使用 RoCE 自適應路由和高級擁塞控制機制等技術，在負載和規模需求下實現最高有效帶寬。結合在 NVIDIA BlueField -3 DPU 和 Spectrum-4 交換機上同步工作的功能對于實現 AI 結構的最高性能和可靠性至關重要

RoCE 自適應路由

人工智能工作負載和應用程序的特點是少數大象流負責 GPU 之間的大量數據移動，其中尾部延遲高度影響整個應用程序的性能。用傳統的網絡路由機制迎合這種流量模式可能會導致 AI 工作負載的 GPU 性能不一致且未得到充分利用。

RoCE 自適應路由是一種細粒度的負載平衡技術。它動態地重新路由 RDMA 數據以避免擁塞，并提供最佳負載平衡以實現最高的有效數據帶寬

它是一種端到端功能，包括 Spectrum-4 交換機和 BlueField -3 DPU 。 Spectrum-4 交換機負責為每個數據包選擇最不擁塞的端口進行數據傳輸。由于同一流的不同數據包通過網絡的不同路徑，它們可能會無序到達目的地。 BlueField -3 在 RoCE 傳輸層轉換任何無序數據，透明地向應用程序傳遞有序數據

Spectrum-4 根據出口隊列負載評估擁塞，確保所有端口都很好地平衡。對于每個網絡數據包，交換機在其出口隊列上選擇負載最小的端口。 Spectrum-4 還接收來自相鄰交換機的狀態通知，這會影響路由決策。所評估的隊列與服務質量級別相匹配

因此， NVIDIA Spectrum-X 能夠在負載和規模下實現高達 95% 的超規模系統有效帶寬

Diagram with four switch icons on the top, eight switch icons in the middle, one data processing unit icon, and four data rack cabinet icons. — *圖 3 。 NVIDIA Spectrum-4 典型數據中心部署結構*

RoCE 擁塞控制

由于網絡級擁塞，在超大規模云系統上并發運行的應用程序可能會出現性能下降和可重復運行時間縮短的問題。這可能是由應用程序本身的網絡流量或來自其他應用程序的后臺網絡流量引起的。這種擁塞的主要原因是已知的多對一擁塞，即存在多個數據發送器和單個數據接收器。

這種擁塞不能使用自適應路由來解決，并且實際上需要每個端點的數據流計量。擁塞控制是一種端到端的技術， Spectrum-4 交換機提供代表實時擁塞數據的網絡遙測信息。這些遙測信息由 BlueField DPU 處理，后者管理和控制數據發送器的數據注入速率，從而實現網絡共享的最大效率

如果沒有擁塞控制，多對一的場景將導致網絡背壓和擁塞擴展，甚至數據包丟失，從而大大降低網絡和應用程序的性能。

在擁塞控制過程中， BlueField -3 DPU 執行擁塞控制算法。它們以微秒的反應延遲每秒處理數百萬個擁塞控制事件，并應用細粒度的速率決策

Spectrum-4 交換機帶內遙測既包含用于準確擁塞估計的排隊信息，也包含用于快速恢復的端口利用率指示。 NVIDIA RoCE 擁塞控制通過使遙測數據繞過擁塞流排隊延遲，同時仍然提供準確和并發的遙測，顯著提高了擁塞發現和反應時間。

RoCE 性能隔離

人工智能超大規模和云基礎設施需要支持越來越多的用戶（租戶）和并行應用程序或工作流。這些用戶和應用程序無意中在基礎設施的共享資源（如網絡）上進行競爭，因此可能會影響性能

NVIDIA Spectrum-X 該平臺包括一些機制，當它們結合在一起時，可以提供性能隔離。它確保一個工作負載不會影響另一個工作負荷的性能。這些機制確保任何工作負載都不會造成網絡擁塞，從而影響另一個工作負載的數據移動。性能隔離機制包括服務質量隔離、用于數據路徑擴展的 RoCE 自適應路由和 RoCE 擁塞控制

NVIDIA Spectrum-X 平臺具有軟件和硬件的緊密集成功能，能夠更深入地了解人工智能工作負載和流量模式。這樣的基礎設施提供了使用專用以太網 AI 集群進行大型工作負載測試的能力。通過利用來自頻譜以太網交換機和 BlueField -3 DPU 的遙測，NVIDIA NetQ可以主動檢測網絡問題并更快地解決網絡問題，以優化網絡容量的使用

NVIDIA NetQ 網絡驗證和 ASIC 監控工具集提供了對網絡運行狀況和行為的可見性。 NetQ 流遙測分析顯示了數據流在穿越網絡時所走的路徑，提供了網絡延遲和性能見解。

提高能源效率

由于對計算資源的需求不斷增長和控制能源成本的需要，功率封頂已成為數據中心的一種常見做法。 Spectrum-4 ASIC 和光學創新實現了簡化的網絡設計，提高了每瓦的性能，實現了更好的效率，并提供了更快的人工智能見解，而不會超過網絡功率預算

總結

NVIDIA Spectrum-X 網絡平臺專為要求苛刻的人工智能應用而設計。與傳統以太網相比， NVIDIA Spectrum-X 具有更高的性能、更低的功耗、更低的 TCO 、全棧軟硬件集成和大規模，是運行現有和未來人工智能工作負載的理想平臺

了解更多信息

想了解更多信息嗎？查看這些資源：

NVIDIA Spectrum-X Network Platform Architecture whitepaper
NVIDIA Spectrum-X demo video
NVIDIA Spectrum-X site
NVIDIA Spectrum-4 datasheet
NVIDIA Spectrum SN5000 Series Switches datasheet
NVIDIA Cumulus Linux
NVIDIA NetQ
NVIDIA Collective Communication Library (NCCL)

使用 NVIDIA Spectrum-X 網絡平臺進行渦輪增壓生成 AI 工作負載