越來越多的企業組織開始采用加速計算來滿足生成式 AI、5G 電信和主權云的需求。NVIDIA 發布了 DOCA 平臺框架 (DPF),該框架提供了基礎構建塊來釋放 NVIDIA BlueField DPU 的強大功能,并優化 GPU 加速的計算平臺。作為一種編排框架和實施藍圖,DPF 使開發者、服務提供商和企業能夠無縫創建 BlueField 加速的云原生軟件平臺。
通過簡化 DPU 調配、生命周期管理和服務編排,DPF 使 BlueField DPU 可在 Kubernetes 環境中廣泛使用,以加速 AI 和其他現代工作負載。此外,DPF 還強化了由 BlueField 加速的應用和服務組成的生態系統,推動可擴展云平臺的發展。
解決云基礎設施中的一個關鍵差距
NVIDIA 對 CPU-GPU-DPU 三功能的承諾眾所周知,隨著 DPF 的推出,NVIDIA 正在此架構的 DPU 方面實現大膽的飛躍。DPF 標志著向更現代的云基礎設施邁出了重要的一步,有助于重新定義如何將 BlueField DPU 集成到數據中心,以解決性能、效率和安全性方面的關鍵挑戰。
NVIDIA BlueField DPU 已經為以 CPU 為中心的傳統基礎設施提供了高性能、可擴展的替代方案,可從主機 CPU 中卸載關鍵的網絡、存儲和安全功能,從而加速數據中心運營。然而,到目前為止,在數據中心規模管理 DPU 驅動的服務一直是一個支離破碎且繁瑣的過程。
這就是 DPF 的用武之地:一個專用框架,可簡化 BlueField 加速云基礎設施的部署、編排和擴展。DPF 將 Kubernetes 控制平面功能擴展到 DPU,使管理員能夠直接在 BlueField DPU 上部署和編排 NVIDIA DOCA 服務和基于 DOCA 的第三方服務。
DPF 配備用于無縫集成的專用 SDK,可為開發者提供一致的模塊化工具包,以便在 BlueField DPU 車隊中輕松管理軟件。這縮短了時間并降低了復雜性,使開發者能夠專注于構建穩健的軟件平臺和具有高影響力的應用程序,而不是管理 DPU 軟件編排。
此外,DPF 在生態系統中發揮著至關重要的作用,使基礎設施獨立軟件供應商 (ISV) 能夠滿懷信心地構建和集成 BlueField 應用。通過提供標準化的 API 和工具,DPF 可確保這些應用在 BlueField 加速的基礎設施上無縫運行。這反過來也使服務提供商和企業受益,使他們能夠利用強大的加速服務組合來構建高性能、安全且高效的云平臺。
為簡化云原生環境的 DPU 管理,DPF 解決了兩個主要工作流:
- DPU 調配和生命周期管理:涵蓋部署 BlueField DPU 的初始步驟,包括固件和軟件的安裝和配置,以及持續的維護任務。
- DPU 服務管理和編排: 涉及部署和管理基礎設施服務,如 SDN 控制器軟件、存儲目標軟件、防火墻、負載均衡器等,包括服務功能鏈。
高效的 DPU 調配和生命周期管理
DPF 為 BlueField DPU 調配和生命周期管理提供端到端支持,自動執行固件更新、刷寫和配置等流程,以簡化設置并減少機時間。BlueField DPU 的調配、配置、監控和故障排除等關鍵任務均已得到簡化,從而更輕松地大規模集成和操作 BlueField DPU。
DPF 為數據中心內的每個 BlueField 維護更新狀態,從而對 DPU 運行狀況做出動態響應。當 DPU 需要維護時,DPF 可以以受控方式主動耗盡節點,最大限度地減少或消除對活動生產工作負載的影響。通過滾動更新功能,管理員可以通過指定要一次更新的 BlueField DPU 的百分比來控制批量更新,從而避免可能影響系統穩定性的大規模更新。實時運行狀況監控和警報使管理員能夠快速識別和解決問題,這對于電信和 AI 賦能的數據中心等高可靠性環境至關重要。
通過公開的 API 和自定義資源定義 (CRD),DPF 可實現 BlueField DPU 生命周期的自動化,使云運營商能夠從其標準 K8s 控制平面管理受 BlueField 限制的服務,從而為 K8s 工作節點和 DPU 提供統一的“單一界面”視圖和控制。
DPF 實施藍圖基于上游 Kubernetes,允許技術合作伙伴根據不同的基礎設施需求和企業產品調整和擴展框架。
全面的 DPU 服務管理和編排
DPF 將 BlueField DPU 無縫集成到基于 Kubernetes 的工作流程中,從而將云原生環境的復雜性提升到新的水平。通過引入專用的輔助 Kubernetes 控制平面,DPF 使管理員能夠高效管理 NVIDIA DOCA 服務和部署在 BlueField DPU 上的基于 DOCA 的第三方應用程序。DPF Operator 自主管理此二級 DPU Kubernetes 控制平面,監督服務部署、監控和生命周期管理的各個方面。
DPF 旨在將 DPU 管理的復雜性抽象化,使管理員僅使用熟悉的 Kubernetes 結構與主要的 Kubernetes 控制平面進行交互,從而無需直接管理 DPU 控制層。DPF 還為 ISV 提供了靈活性,使他們能夠實現自己的 Kubernetes 控制平面,以實現自定義的 BlueField 服務管理和編排。
通過優化 BlueField DPU 系列中的服務編排,DPF 簡化了復雜分布式工作負載的部署和管理。憑借強大的生命周期管理功能,DPF 支持無縫的服務更新、擴展和回滾,確保管理員可以高效地管理更改,而不會中斷正在進行的操作。結合 DOCA 服務功能鏈(SFC),DPF 可促進安全、高效的服務鏈(例如加速網絡(CNIs)、高性能數據服務(CSIs)和防火墻功能),以處理復雜的多步驟任務。
為確保平穩部署,DPF 提供了部署前驗證,確認 DPU 可以托管所需的服務,并在不滿足要求時返回有意義的錯誤消息。此外,DPF 還提供監控和調試功能,幫助管理員實時管理和故障排除服務,從而更輕松地實現高可靠性和透明度。
通過 DPF,管理員可以獲得直觀的云原生工具,用于在 BlueField DPU 上調配、管理和編排服務。這種與現有 Kubernetes 工作流程的無縫集成加快了高級 BlueField 加速應用程序在電信、云和企業環境等領域的部署速度。
模塊化架構有助于簡化集成
DPF 采用模塊化架構設計,可簡化集成,并為 BlueField 加速基礎設施提供定制功能。這種靈活的設計建立在一系列核心組件和工具之上,為開發者、服務提供商和企業提供了一種簡化的方法來在云原生環境中配置和管理 BlueField DPU。圖 1 展示了 DPF 軟件堆棧,突出了在主機和 BlueField DPU 上運行的 DPF 功能。它還包括用于網絡、存儲和安全的各種基礎設施軟件服務,其中一些服務通過 Kubernetes 插件 (CNI 和 CSI) 將加速 IO 接口公開給容器化工作負載。

這些工具和服務通過容器、Helm 圖表和實施藍圖提供,為開發者提供了在 DPF 上集成和構建所需的一切。
DPF Operator?
DPF 編排層的核心是 DPF Operator,它可以自動執行 DPU 調配、生命周期管理和服務編排。它為 Kubernetes 用戶提供了一個熟悉的云原生接口,簡化了復雜的配置,并使 BlueField DPU 能夠像其他集群資源一樣進行部署和管理。DPF Operator 內置對自動更新和資源管理的支持,可讓您在生產環境中輕松部署和維護 BlueField DPU。
適用于主機的 DOCA?
DOCA for Host 軟件提供了一套全面的配置工具,可簡化 BlueField DPU 的部署和配置。DOCA for Host 可處理 DPU 與主機環境集成所需的固件、BIOS 和系統配置,從而確保在各種部署中實現一致且可靠的設置。
OVS-DOCA?
OVS-DOCA 充當 DPF 中的核心網絡堆棧,為 BlueField 加速應用程序提供安全、高性能的網絡連接。它在 Kubernetes 環境中提供高級網絡功能和高效的流量路由,確保在不影響性能或安全性的情況下充分利用 BlueField 資源。這一基礎使開發者能夠輕松構建高吞吐量、延遲敏感型應用。
DOCA 服務?
托管在 NVIDIA NGC 上的一組精選 DOCA 服務增強了 BlueField DPU 的功能,DPF 提供了直接在作為 Kubernetes 集群一部分的 BlueField 上獲取和部署這些服務的工具。這些即用型服務涵蓋高級監控、網絡、存儲、安全等,可擴展 BlueField 的功能,實現關鍵服務的快速部署。通過 NVIDIA NGC,用戶可以無縫訪問擴展的 NVIDIA 認證服務和應用程序庫,這些服務和應用程序與 DPF 完全集成。DPF 的初始版本包括 HBN 、 OVN-Kubernetes 、 Telemetry 和 BlueMan 作為第一套 DOCA 服務,后續版本將引入對其他服務的支持,以進一步增強功能并擴展集成功能。
除了 NVIDIA 服務之外,DPF 還編排了第三方 DOCA 服務,為 BlueField 環境引入了專用功能。從網絡安全解決方案到負載均衡和防火墻應用,第三方服務使用戶能夠根據其特定需求打造強大的生態系統。DPF 采用開放式模塊化架構,可促進與服務供應商的協作,為用戶提供更廣泛的功能和靈活性。
DPF 為開發者提供所需的工具和服務 (打包在容器、Helm 圖表和實施藍圖中),以輕松與 DPF 集成,并構建、定制和部署先進的 BlueField 加速軟件平臺。
借助 DPF 引領 DPU 加速云計算的未來
NVIDIA DOCA 平臺框架 (DPF) 為 BlueField 加速環境重新定義了云基礎設施,改變了云服務的調配和管理方式。此外,NVIDIA DPF 路線圖也標志著激動人心的功能即將推出。即將推出的功能將為裸機 BlueField 加速的基礎設施帶來零信任功能,從硬件層到上保護環境。
我們鼓勵開發者、電信公司和企業探索 DPF 的功能,下載藍圖,并嘗試構建針對高性能和可擴展基礎設施優化的應用。立即開始使用 DPF,引領 BlueField 加速云基礎設施的未來。
- 查看容器和 Helm 圖表
- 訪問 NVIDIA/DOCA 平臺 GitHub 存儲庫
- 閱讀 DPF 文檔
- 請參閱 DPF 參考部署指南 (RDG),使用 OVN-Kubernetes 和 HBN 服務部署 DPF
?
?