作為面向數據中心基礎設施開發者的全面軟件框架, NVIDIA DOCA 已被領先的 AI、云、企業和 ISV 創新者采用。DOCA 2.5 的發布標志著其發布的第三個周年。此外,由于代碼庫的穩定性和可靠性,以及多項網絡和平臺升級,DOCA 2.5 是首個面向 AI 云部署的 NVIDIA BlueField-3 長期支持 (LTS) 版本。
DOCA 2.5 與 NVIDIA 交換機、BlueField DPU 和 SuperNIC 一起,是為支持要求嚴苛的 AI 工作負載而共同設計的平臺的重要元素。作為 NVIDIA 全棧架構的一部分, NVIDIA 的網絡組件可提供出色的應用程序性能以及安全性和數據中心效率。當與 NVIDIA 計算平臺和軟件工具一起部署時,它們可以提供更多的優勢和協同作用。
以下是 NVIDIA 的一些新網絡產品,以及 DOCA 2.5 如何成為 AI 基礎架構不可或缺的一部分。
AI 基礎架構的支柱
現在,人們普遍認識到,高性能網絡是高效 AI 基礎設施的支柱。為了實現最佳 AI 性能,必須對其生成式 AI 和基礎模型的能力、實現和部署給予重要考慮。
現代 AI 工作負載具有獨特的屬性和巨大的計算需求,因此需要專用的網絡基礎設施才能以峰值效率運行。為了引領 AI 和加速計算領域的發展,我們創建了 NVIDIA Spectrum-X 以太網網絡平臺,以滿足這一需求,并提高 AI 云的有效性和性能。
NVIDIA 的 Spectrum-4 以太網交換機和 BlueField-3 SuperNIC 構成了 Spectrum-X 平臺的基礎,也是我們用于人工智能的加速計算結構的基礎。BlueField – 3 SuperNIC 為各行各業提供了眾多技術優勢。當部署在我們的旗艦 AI 系統中時,BlueField – 3 SuperNIC 不僅可以提高性能,還可以為租戶作業提供確定性和隔離性的性能。

NVIDIA 協同
Spectrum-X 平臺結合了共同設計的一流硬件,可提供無與倫比的性能協同和出色的客戶體驗。BlueField-3 SuperNIC 是該設計不可或缺的一部分,可將在基于 GPU 的服務器集群上運行的 AI 系統的以太網網絡提升到新的高度。
相比之下,傳統的網絡接口卡缺乏 AI 工作負載所需的功能。BlueField SuperNIC 可確保高效、快速地交付有效執行基于云的 AI 工作負載所需的流程。
當與 NVIDIA GPU 結合使用時,這種技術組合(適用于大多數企業級服務器)可為 AI 云計算創建優化的解決方案,從而提供無與倫比的效率、性能和靈活性。
經過整個 NVIDIA 硬件和軟件堆棧的驗證,Spectrum-X 和 NVIDIA GPU 為 AI 云創建了真正無與倫比的以太網解決方案。憑借如此廣泛的集成水平,微調的機會為真正獨特的解決方案提供了類似自定義級別的修改,專用于交付精度工作負載。
作為全棧的組成部分,DOCA 是 AI 難題的關鍵部分,將計算、網絡、存儲和安全聯系在一起。

適用于 AI 云和數據中心基礎設施的新功能
DOCA 有助于實現當今最先進的 GPU 加速 AI 工作負載。對于包含 GPU 和 NVIDIA BlueField-3 DPU 或 BlueField – 3 SuperNIC 的系統,開發者還有更多優勢。
? | BlueField-3 DPU | BlueField-3 SuperNIC | ? |
任務 | >云基礎設施處理器 >卸載、加速和隔離數據中心基礎設施 >已針對 GPU 級系統中的 N-S 進行優化 |
>適用于 AI 計算的加速網絡 >出色的 RoCE 網絡 >已針對 GPU 級系統中的 E-W 進行優化 |
? |
共享功能 | >VPC 網絡加速 >網絡加密加速 >可編程網絡流水線 >精確計時 >平臺安全性 |
? | |
獨特功能 | > 強大的計算能力 > 安全的零信任管理 > 數據存儲加速 >彈性基礎設施配置 >每個系統 1-2 個 DPU |
>強大的網絡 >AI 網絡功能集 >全棧 NVIDIA AI 優化 >節能高效的半高設計 >每個系統最多 8 個 SuperNIC |
? |
具體來說,DOCA 利用了眾多由 NVIDIA 主導的開發、集成和測試計劃,這些計劃支持并優化了全系列 AI 應用程序框架。 NVIDIA 技術的融合推動了數據中心創新和快速 AI 應用程序部署。
DOCA 2.5 于 2023 年 12 月發布,提供了多項增強功能,可提升數據中心內的性能。虛擬功能的數量和“東西向”網絡流量都在不斷增加。作為回應,使用 DOCA 和 BlueField-3 SuperNIC 對于優化網絡并將其功能建立為現代 AI 基礎設施的支柱至關重要。

DOCA-PCC 現已推出
在多租戶AI云環境中,同時運行多個AI作業可能會導致網絡擁塞。
DOCA PCC 庫(現稱為 GA)提供了一個高級編程接口,使合作伙伴能夠實施自定義的擁塞控制 (CC) 算法。該庫使用 NVIDIA BlueField-3 SuperNIC 加速進行 CC 管理,并提供 API 來抽象硬件復雜性以簡化編程。合作伙伴可以專注于 CC 算法的功能,并通過 BlueField 硬件加速快速實施該算法。
DOCA PCC 還為您提供了開發優化解決方案的靈活性,以處理集群中的擁塞。定制的擁塞控制對于 AI 工作流至關重要,可實現性能隔離,提高公平性,并防止在無損網絡上丟棄數據包。
NVIDIA Spectrum-X 是一款突破性的以太網網絡解決方案,用于構建多租戶、超大規模 AI 云。它使用 DOCA PCC 實現擁塞控制。
DOCA Flow:用于云部署的新功能和增強功能
DOCA Flow 是用于開發 DOCA 服務的基本編程工具。DOCA 2.5 增加了對 NVIDIA OVS-DOCA 開發的額外支持,這是一種創新的高性能虛擬交換機,適用于 NVIDIA NIC 和 DPU 以及 NVIDIA DOCA HBN 服務。
借助 NVIDIA DOCA Flow,您可以定義和控制網絡流量,實施網絡策略,并以編程方式管理網絡資源。它提供網絡虛擬化、遙測、負載均衡、安全強制和流量監控。
這些功能有助于處理低延遲的高數據包工作負載、節省 CPU 資源并降低功耗。從根本上講,DOCA Flow 是云網絡中多個用例的關鍵推動因素。DOCA Flow 用于開發自定義軟件定義網絡 (SDN),是 CSP 設計未來網絡的關鍵構建塊。
DOCA 服務
以下是在 DOCA 2.5 版本中升級的 DOCA 服務示例:
- 基于主機的網絡
- DOCA Firefly
- 存儲 SNAPv4
基于主機的網絡
DOCA 2.5 中升級的基于主機的網絡 (HBN) 是一項 DOCA 服務,使網絡架構師能夠完全基于 L3 協議設計網絡,從而實現在網絡服務器上運行的路由。就 BlueField 而言,HBN 解決方案將一組網絡功能打包在容器內,打包為在 DPU 上運行的服務 Pod.
DOCA HBN 使網絡架構師能夠創建無控制器虛擬私有云 (VPC).這是部署裸機即服務 (BMAaS) 基礎設施的 CSP、電信公司和企業客戶的理想選擇。
與傳統的網絡解決方案相比,DOCA HBN 為您帶來了許多好處。除了提高部署的可擴展性和效率外,DOCA HBN 還提供增強的安全選項、簡化的底層網絡結構,并降低了 OPEX.如果與第三方交換機制造商結合使用,DOCA HBN 會將多個 ToR 交換機功能轉移到 BlueField-3 DPU 或 SuperNIC,從而降低第三方許可成本。
如需詳細了解新的 HBN 功能,包括對 RoCE、Routing 和 ACL 增強功能的支持,請參閱 DOCA 2.5 版本說明.
DOCA Firefly
此功能提供基于精確時間協議 (PTP) 的時間同步服務,這些服務使用 NVIDIA DPU 和 SuperNIC 的硬件加速。
行業特定的 PTP 用例包括以下內容:
- 電信:基于網絡的時間同步對于 5G 移動部署至關重要。
- 媒體與娛樂:
- 視頻、音頻和元數據傳輸的 QoS
- 滿足嚴格的直播質量要求
- 數據中心:時間分布
- 金融服務:
- 高頻交易 (HFT)
- 符合 MiniFID II 要求(必填)
作為 DOCA 2.5 的新成員,DOCA Firefly 現在包含行業特定的配置文件,以改善用戶體驗并簡化部署。配置文件目前包括媒體和電信,配置為包含行業特定的功能和性能參數。
存儲 SNAPv4
BlueField-3 上的 DOCA SNAPv4 服務添加了內聯 AES-XTS,這是一種默認加密算法,用于保護存儲設備上靜態數據的機密性。SNAP 現在加速硬件中的 AES – XTS 加密,從而優化和改進加密過程,同時受益于減少的 CPU 開銷。
virtio-blk 的 SNAPv4 服務現可提供無需強制按序的恢復/熱升級/LM.這項新功能改進了對恢復、熱升級和實時遷移功能的支持,意味著無需再使用強制按序流量進行操作。對于處于真實環境中的客戶而言,這相當于一個更實用的工具,因此典型客戶(例如 CSP)現在可以為執行重要存儲任務的最終用戶提供更高的正常運行時間和不間斷的性能。
更多更新
有關以下更新和功能列表的更多信息,請參閱 DOCA 2.5 版本說明。
- 設備認證
- DPA 用戶應用程序簽名和身份驗證[測試版]
- DPU 固件 TPM[測試版]
- DPU 升級工具
- 新的資格認證、認證和管理功能
結束語
現代 AI 工作負載需要復雜的網絡解決方案,才能以峰值效率有效運行。如今,全球各地的組織在嘗試將 AI 嵌入其現有的運營和技術基礎設施時,也面臨著類似的重大挑戰。
為了滿足這一需求, NVIDIA 作為 AI 和加速計算領域的領導者,創建了一個優化的網絡平臺,以提高 AI 云計算的性能。該平臺有效性的核心是通過各種 NVIDIA 品牌硬件和軟件解決方案采用的互補技術實現的協同作用。
在其全棧架構中, NVIDIA 實施了一些設計考慮因素,以確保提高各種平臺之間的運營效率。當與 NVIDIA GPU 相結合時,Spectrum-X (由 NVIDIA 以太網交換機和 BlueField SuperNIC 組成的解決方案)為 AI 云創建了真正出色的以太網平臺。借助最新版本的 NVIDIA DOCA SDK, NVIDIA 取得了更多進展,進一步支持當今最先進的 GPU 加速 AI 工作負載。
要利用 DOCA 提供的所有優勢開啟您的開發之旅,請下載 NVIDIA DOCA。如需了解更多信息,請參閱以下資源:
- 揭秘 NVIDIA DOCA
- 了解何時使用 DOCA 驅動程序和 DOCA 庫
- DOCA 簡介:適用于 DPU 的加速軟件開發免費課程
- DOCA Flow 入門 自定進度課程
- 立即提供 AI 就緒型基礎架構,為未來的 AI 工廠提供動力支持 – GTC 會議
?