NVIDIA DOCA 通過為開發者提供全面的軟件框架來利用硬件加速來增強 NVIDIA 網絡平臺的功能,從而提高性能、安全性和效率。它的 API、庫和工具生態系統可簡化數據中心基礎設施的開發,實現工作負載卸載、加速和隔離,以支持現代、高效的數據中心。
如今,許多主要的 CSP 和 NVIDIA 云合作伙伴(NCP)都在使用 DOCA,并為快速開發和部署創新解決方案提供了標準化平臺。這種方法可縮短上市時間、降低成本,并使合作伙伴能夠在使用 NVIDIA 硬件加速的同時專注于自身的核心優勢。
DOCA 培育的開放生態系統促進了協作和互操作性,創造了各種互補解決方案。合作伙伴可以探索 AI 驅動的網絡、高級安全性和高性能存儲等新興市場,將自己定位在數據中心創新前沿。
DOCA 2.9 的最新版本標志著 AI 計算結構和云計算基礎設施的重大進步。這次全面更新引入了許多新功能和改進,有助于改變高性能計算和網絡格局。

利用增強的東西向計算結構優化人工智能網絡
DOCA 2.9 版本的亮點包括改進的擁塞控制和新的遙測庫,這對于優化數據中心內的網絡流量至關重要,從而提供更好的性能、效率、可見性和控制。
支持 Spectrum-X 1.2 參考架構
Spectrum-X (SPC-X) 1.2 參考架構針對東西向以太網 AI 云環境進行了多項增強。該更新支持大規模橫向擴展能力,可在單個網絡中容納多達 128,000 個 GPU。該架構使用 NVIDIA BlueField-3 SuperNIC 和 NVIDIA Spectrum-4 交換機的強大組合,連接到 NVIDIA DGX H100 和 NVIDIA HGX H100 平臺,為 AI 工作負載提供出色的性能和效率。
DOCA 2.9 還改進了遙測能力和 Spectrum-X 的擁塞控制算法。這有助于更精細、更實時地監控網絡性能,并改進拓撲檢測,這對于大規模和遠程優化 AI 工作負載至關重要。
DOCA 擁塞控制
DOCA 2.9 提升了高性能計算和 AI 工作負載的擁塞控制算法,即 NVIDIA 網絡擁塞控制 (NVNCC)。
NVNCC Gen2 和 InfiniBand 擁塞控制 IBCC 的全面推出標志著一個重要的里程碑。IBCC 專門針對 InfiniBand 上的人工智能工作負載進行了優化,而 NVNCC 通過改進的拓撲檢測功能增強了 Spectrum-X 擁塞控制算法,現在支持長距離的 RoCE。
DOCA 遙測庫
作為此版本的新成員,DOCA 遙測庫引入了高頻采樣功能,推進了人工智能驅動環境的網絡監控。此更新可實現低于 100 微秒的計數器讀數間隔,與之前的 0.5-1 秒頻率相比,實現了巨大飛躍。
主要功能包括用于指定計數器、時間間隔和頻率的新 API,以及對多個性能計數器(例如 RX/TX 字節、端口、擁塞通知和 PCIe 延遲)的支持。這些增強功能可滿足關鍵用例的需求,例如用于集群范圍異常檢測的高頻遙測(HFT)和用于應用程序分析的本地性能分析。
北-南云計算基礎設施正在增強連接性和安全性
DOCA 2.9 中的南北向改進側重于增強云資源與外部網絡之間的連接性。
DOCA Flow
DOCA 2.9 為 DOCA Flow 引入了一項令人興奮的新功能:‘tune’性能分析工具。目前處于 alpha 階段,此工具已無縫集成到 DOCA-Flow 交付包中,為用戶提供有關其網絡流配置的深入見解。
`tune`工具可直觀呈現已配置的流水線,使用戶能夠清楚地了解其流結構。這項可視化功能使管理員和開發者能夠快速識別和優化流配置。
OVS-DOCA
OVS-DOCA 現已正式推出,帶來了本地鏡像功能,并在 NVIDIA BlueField DPU 軟件定義網絡方面向前邁出了一步。此長期支持(LTS)版本為用戶提供了傳統 OVS 解決方案的穩定、高性能替代方案,使用 DPDK 或內核數據路徑為現代網絡環境提供更高的效率和擴展功能。
通用版本引入了一些關鍵的增強功能,可提升 DOCA 的功能,包括通過 DOCA Flow API 大幅提升連接追蹤(CT)功能的性能。用戶每秒連接數(CPS)有望提升 100%,每秒數據包數(PPS)有望提升高達 50%。最多可支持三個 NIC,可實現更靈活、更強大的網絡配置,從而增強可擴展性和吞吐量。
基于 DOCA 主機的網絡 2.4
DOCA 基于主機的網絡 (HBN) 不斷發展,版本 2.4 為裸機即服務環境的無控制器 VPC 網絡帶來了許多增強功能。DOCA HBN 2.4 以 BGP EVPN 為基礎,引入了令人印象深刻的可擴展性改進,支持高達 8,000 個 VTEP 和 80,000 個 Type-5 路由。
最新版本通過內核 Next-Hop 組和 OVS-DOCA 故障轉移增強了 ECMP 路由,提高了網絡彈性和性能。其中一個關鍵的新增功能是 Overlay 網關的有狀態 SNAT+PAT,使私有租戶 IP 能夠通過共享公共 IP 地址訪問外部網絡。
DOCA FireFly
增強型 DOCA Firefly 服務通過硬件加速為 NVIDIA 數據處理單元(DPU)帶來先進的時間同步功能。此更新引入了兩項顯著特性:同步以太網(SyncE)支持和數據傳輸服務(DTS)集成。
SyncE 可在網絡設備之間實現高精度頻率同步,對于電信網絡(尤其是移動基礎設施)至關重要。DTS 支持支持通過遙測通道傳輸 PTP 信息,從而實現持續的網絡時間服務監控。
NVIDIA Rivermax SDK
Rivermax SDK 獲得了一些增強功能,這些功能側重于降低延遲、最大限度地降低 CPU 占用率,以及最大限度地提高數據密集型應用的帶寬和 GPU 利用率。一個關鍵的補充是支持 Internet Protocol Media Experience (IPMX),這是專業視聽環境中 AV over IP 的新興開放標準。
在 Rivermax 的支持下,DOCA 2.9 還支持 NVIDIA Holoscan for Media;一個專為媒體和娛樂行業定制的認證平臺。該功能優化了未壓縮和壓縮視頻流的處理,簡化了用于高性能媒體處理的 I/O 操作。
NVIDIA DOCA App Shield
DOCA App Shield 庫的增強功能提高了其在主機監控和威脅檢測方面的能力。主要增強包括預先生成的操作系統配置文件,使各種操作系統的設置過程更加簡化。
對于 Linux 環境,App Shield 現在提供高級容器監控功能,使安全團隊能夠密切關注容器化工作負載。該服務已得到擴展,可列出網絡連接,并提供有關每個進程的網絡連接詳細信息,從而更深入地了解潛在的安全威脅。
DOCA SNAP 虛擬化
DOCA SNAP virtio-fs 的測試版是一項利用 NVIDIA BlueField-3 DPU 的強大功能的安全加速文件系統存儲服務。此解決方案使用內置的 virtio-fs 驅動程序向主機公開本地文件系統語義,同時直接在 DPU 上運行遠程文件系統存儲邏輯。
該版本還引入了 SNAP Virtio-fs 的測試版,作為公共 NGC 服務容器提供。它通過集成到 BlueField-3 內核中的 NFS Linux 內核文件系統啟用。開發者可以基于 SPDK FSDEV 創建自定義文件系統堆棧,從而實現靈活性和性能優化。
此解決方案可在 AI 計算服務器中實現云規模分布式文件系統存儲,提供具有隔離和策略執行功能的安全環境,同時加速性能并卸載虛擬機管理程序任務。
開放虛擬網絡裸機租戶隔離
DOCA 2.9 包括一項新的編排服務,增強軟件定義網絡(SDN)環境中的租戶隔離。Open Virtual Network(OVN)裸機租戶隔離功能保護多租戶環境中的南北流量,確保 AI 工作負載保持安全和獨立,即使在密集計算集群中也是如此。
此服務基于上游 OVN 構建,提供用于租戶隔離的簡化、健壯的 API,以及用于在 BlueField DPUs 上輕松部署的 Ansible 手冊。關鍵創新在于卸載和加速基于 SDN 的租戶 BlueField DPUs,通過隔離特定進程來提高速度和效率。這種中央組織允許使用 API 調用輕松更改隔離設置,從而更好地控制網絡管理。這使得它非常適合希望使用 SDN 創建多租戶云的 AI 云和工廠。
設備管理和開發工具?
DOCA 2.9 簡化了大規模部署所需的大型語言模型設備管理流程。此版本還為開發者提供了新的優化和分析工具,可幫助他們更好地了解應用程序和數據路徑性能。
DOCA 管理服務 (DMS)
DOCA 管理服務(DMS)也升級為通用狀態,為管理 BlueField DPUs 和 SuperNICs 提供增強功能。此更新引入了通過單個 API 端點管理多臺設備的能力,從而簡化了在復雜的多設備環境中的操作。
一項關鍵改進是在節點重啟期間支持配置“持久性”,從而確保設備設置在系統重啟期間保持不變。這種改進還伴隨著新的批量導入/導出功能,用于設備配置的高效管理,特別是在大規模部署中。
DOCA 數據路徑加速器
數據路徑加速器(DPA)工具包的增強功能為開發者提供了更強大的性能優化和分析工具。其中一項突出功能是將 DPA 性能計數器與新的 Nsight 工具相集成,從而更深入地了解應用程序性能。
DOCA-DPA-Comms 庫是一個重要的補充,目前處于測試階段。該庫簡化了基于 DPA 的數據路徑的實現,為開發者提供了更高級別的抽象化。它可用于 BlueField-3 DPUs 和即將推出的 NVIDIA ConnectX-8 SuperNIC,確保 NVIDIA 高級網絡硬件產品組合的廣泛兼容性。
用于簡化部署和支持的平臺和 DOCA 軟件包
改善用戶體驗是 DOCA 發展的核心。本次發布包括許多旨在簡化和改進部署的功能,例如 DOCA-Host 配置文件 DOCA-ROCE,它迎合了需要 RDMA over Converged Ethernet 功能的環境。
NVIDIA 還針對 BlueField-3 推出了 PLDM 固件更新。該測試版支持使用標準 PLDM over MCTP over PCIe 實現無縫固件更新,使服務器在激活之前能夠正常運行。這一零信任功能支持 NIC 和 DPU 模式,并且無需 DPU-BMC 1GbE 連接。
此外,此版本標志著 MLNX_OFED 的最終長期支持(LTS)獨立版本,該版本現已作為主機配置文件‘DOCA-OFED’提供。
從用于 InfiniBand 和以太網解決方案的 MLNX_OFED 驅動和工具套件過渡到 DOCA-OFED,可實現集成在 DOCA 框架內的統一、可擴展和可編程網絡堆棧。詳細了解 MLNX_OFED 向 DOCA-OFED 過渡 。
了解詳情?
NVIDIA DOCA 2.9 標志著 AI 計算結構和云計算基礎設施的顯著進步。 下載 NVIDIA DOCA 開始您的開發之旅,享受 DOCA 提供的所有優勢。
?