使用 Red Hat OpenShift 和 NVIDIA BlueField DPU 加速云就緒基礎設施和 Kubernetes

IT 世界正在向云轉移，云是建立在 Kubernetes 管理的容器上的。我們認為，下一個合乎邏輯的步驟是使用數據處理器（ DPU ）加速這一基礎設施，以提高性能、效率和安全性。

Red Hat 和 NVIDIA 正在構建一個集成的云就緒基礎設施解決方案， Red Hat OpenShift 的管理和自動化，以及 NVIDIA BlueField DPU .

紅帽 OpenShift 的好處

許多流行的云基礎設施項目使用 Kubernetes 管理的容器。然而，實施 Kubernetes 可能是一項艱巨的任務，尤其是對于那些無法投入專職人員成為 Kubernetes 專家的組織來說。

Red Hat OpenShift 為管理 Kubernetes 容器以及應用程序部署、更新和生命周期管理提供了一套強大的功能。 OpenShift 包括自動化和安全工具，以及受支持的開源模型，以使云基礎設施更經濟、可靠和可擴展。

根據 2021 的數據， 85% 以上的容器編排項目都使用了 Red Hat 調查， Kubernetes ，而 Red Hat OpenShift 是混合和多云 Kubernetes 部署的最流行選擇。 OpenShift 是業界領先的企業 Kubernetes 平臺，財富 500 強中超過 50% 的商業銀行、電信公司和航空公司都使用該平臺。

顯然，大多數企業都想要一個受支持的 Kubernetes 模型， Red Hat OpenShift 是最受歡迎的選擇之一。

DPU 的工作原理

DPU 卸載、加速基礎設施工作負載，并將其與服務器的 CPU 隔離。例如， BlueField DPU 可以從 CPU 上卸載網絡、網絡虛擬化、數據加密和時間同步任務，并在特制的硅上運行。

其他基礎設施軟件，如遠程管理、防火墻代理、網絡控制平面和存儲虛擬化，可以在 BlueField 的 Arm 處理器內核上運行。這樣做可以釋放服務器的 CPU 內核，而這些內核可以運行應用程序和租戶工作負載。

該功能還將基礎設施和安全工作負載隔離在單獨的域中。結果是一組服務器以更快的網絡運行更多的應用程序，提高了數據中心的效率和安全性。

在一個典型的云基礎設施中，網絡流量會穿越物理服務器和在這些服務器上運行的容器。這需要在每臺服務器中都有一個分組交換解決方案，為了獲得最大的效率，應用程序容器需要一種與 DPU 的加速網絡卸載進行通信的方式。

傳統的方法是通過 Kubernetes 和開放虛擬網絡（ OVN ）訪問開放虛擬交換機（開放虛擬交換機或 OVS ）。 OVN 提供網絡抽象，默認部署策略是在主機服務器的 CPU 上同時運行 OVN 和 OVS 。

然而，當網絡速度超過 10 Gbps 時，這種方法會消耗大量 CPU 核。 Kubernetes 需要一個解決方案來在 DPU 上運行 OVN 和 OVS 功能，這樣所有的數據包交換、報頭重寫、封裝/去封裝和數據包過濾都可以在網絡硬件上完成，而不是在 CPU 上的軟件中完成。

增加紅帽和 NVIDIA 之間的網絡集成

紅帽和 NVIDIA 已經合作，將 OpenShift 的管理能力與 DPU 的加速能力相結合。

帶有 Red Hat Enterprise Linux 的整合的第一階段始于 2018 年將網絡流量卸載到 NVIDIA ConnectX SmartNIC 。網絡數據平面（使用 OVS 或 DPDK ）在 SmartNIC ASIC 上運行，但網絡控制平面仍完全在 X86 CPU 上的軟件中運行。

This is a diagram of the OpenStack software-defined networking (SDN) components running in Red Hat Enterprise Linux and interacting via Open vSwitch (OVS) with the eSwitch in the NVIDIA ConnectX SmartNIC. This integration allows the eSwitch hardware to offload and accelerate the SDN data plane packet switching for virtual machines running in user space. — *圖 1 。運行在 Red Hat Enterprise Linux 上的 OpenStack SDN 控制器通過 OVS 將網絡數據平面卸載到 NVIDIA ConnectX SmartNIC ，而控制平面在 X86 CPU 上運行* .

2021 ，兩家公司采取了下一步行動，將 Red Hat OpenShift 與 NVIDIA BlueField DPU 一起部署，并進行了性能基準測試。在 NVIDIA GTC 2021 年，我們 demonstrated 討論了將網絡轉移到 DPU 的優勢，并發表了一篇文章通過將網絡功能轉移到 NVIDIA BlueField-2 DPU ，優化數據中心的服務器利用率。

在這個解決方案中，帶有覆蓋卸載（ OVS 和 Geneve 卸載）的網絡數據平面和網絡控制平面（在 OVN Kubernetes 吊艙中）在 DPU 上運行，并帶有 Red Hat Enterprise Linux 。 OpenShift 的主要組件，包括 Red Hat Enterprise Linux CoreOS ，仍保留在 x86 CPU 上。

This diagram shows Red Hat OpenShift with Kubernetes running on the x86 CPU and offloading both the open virtual networking (OVN) data plane and control plane to the BlueField-2 DPU. Red Hat Enterprise Linux CoreOS is running only on the x86 CPU as the DPU runs Red Hat Enterprise Linux. The tenant containers/pods on the x86 host offload their networking virtual functions to the DPU. — 圖 2 。運行在 Red Hat Enterprise Linux CoreOS 上的 Red Hat OpenShift 通過 OVN 和 OVS 將網絡數據平面和控制平面卸載到 BlueField-2 DPU 。 DPU 在其 Arm 內核上運行 Red Hat Enterprise Linux 。

在圖 2 中的部署場景中， BlueField-2 在以下方面起著重要作用：

Geneve （虛擬覆蓋網絡）封裝/去封裝
IPsec 封裝/去封裝
加密/解密路由
網絡地址轉換（ NAT ）

主機 CPU 和容器只看到簡單的未封裝、未加密的數據包， CPU 不需要執行任何這些任務，因為它們被卸載到 DPU 。這種負載水平將 CPU 利用率降低了 70% ，釋放了每臺服務器上的大量 CPU 電源，以運行額外的業務/租戶工作負載。

在 DPU 上運行 OpenShift

如 2022 年 GTC 所述， Red Hat 和 NVIDIA 已經邁出了下一步，將 OpenShift （包括 Red Hat Enterprise Linux CoreOS ）遷移到 BlueField DPU 的 Arm 內核上運行 Red Hat OpenShift 雙集群設計這包括獨立的租戶和基礎設施集群。

Red Hat Enterprise Linux CoreOS 是 OpenShift 控制平面或主節點和工作節點支持的操作系統。這是 OpenShift 中執行調度、維護、升級和群集自動化的部分。它包括容器管理工具和安全加固，使其更能抵御黑客攻擊，現在它可以在主機 x86 CPU 和 DPU Arm 內核上運行。

BlueField DPU 在各種主機服務器上運行 OpenShift OVS 和 OVN 容器以及 Red Hat Enterprise Linux CoreOS ，形成了一個基礎架構工作集群。同時，在 x86 CPU 上運行的 OpenShift 管理租戶吊艙和集群。

將 OpenShift 基礎架構群集軟件卸載到 BlueField Arm 內核上而不是主機 x86 內核上運行，可以節省額外的 x86 CPU 開銷、更高的性能和更強的安全隔離。

Diagram shows that Red Hat OpenShift runs on both the host x86 CPUs and on the BlueField Arm cores. The X86 CPUs form an OpenShift tenant cluster while the DPUs on each server form an OpenShift infrastructure cluster. — *圖 3 。從 Red Hat OpenShift 4.10 開始，您可以在 x86 CPU 上運行 OpenShift 來管理租戶，也可以在 BlueField DPU Arm 內核上運行 OpenShift 來管理集群基礎架構。*

云本機、軟件定義的網絡是 BlueField DPU 用例的一個很好的例子，在 BlueField DPU 環境中，OVN和OVS在 BlueField DPU 上運行并由其卸載。許多其他基礎設施服務，如網絡加密、防火墻代理、虛擬路由器、遙測代理等，也可以在 DPU 上運行，以獲得更大的好處。

OpenShift 在 DPU 上卸載帶來了顯著的成本節約效益

為了了解 DPU 卸載對降低數據中心成本的影響， NVIDIA 和 Red Hat 為一個配備 51K 服務器的中型數據中心構建了一個 TCO 模型。我們認為該數據中心支持 100 萬個應用程序，每個應用程序需要每秒 10 萬個數據包（ PPS ）的交換性能。

我們考慮了兩種服務器部署方案：有無 DPU ：

沒有 DPU 完全在軟件中運行虛擬交換的服務器僅實現 350k PPS 。
使用 DPU 將 OVN 和 OVS 卸載到 DPU 的服務器的性能提高了 54 倍，達到每臺服務器 1870 萬個 PPS 。

將虛擬交換機卸載到 DPU 上也為每臺服務器節省了八個 CPU 內核。基于此測試， TCO 模型產生了 6850 萬美元的驚人資本支出節約 . 這些節約是通過減少 10K DPU 增強型服務器而實現的，這是因為每臺服務器具有更高的網絡性能和 CPU 核心節約。

我們看到，由于服務器占地面積較小而節省了電力，這最終導致基于 DPU 的服務器具有更好的 TCO 模型。隨著我們將負載平衡器、防火墻、加密、 web 服務器等附加功能卸載到 DPU ，這些 TCO 節約將變得更好，最終為支持云計算的數據中心實現驚人的效率。

解決方案路線圖和在 BlueField 上部署 OpenShift

在 BlueField 上運行 OpenShift 的雙集群 OpenShift 體系結構現已在 OpenShift 4.10 中作為開發者預覽版或早期試用版提供，預計將于 2022 年正式提供。

但 NVIDIA 和紅帽隊并沒有就此止步。我們計劃測試網絡流量加密/解密的卸載，因為這是一項 CPU 密集型任務。

BlueField-2 DPU 可以以高達 100 Gbps 的速度卸載 IPsec 加密/解密，以高達 200 Gbps 的速度卸載 TLS 加密/解密。
BlueField-3 預計將以更高的速度支持 IPSec 、 TLS 和 MACsec 。

從 OpenShift 到 DPU 的線速加密卸載的實施將提高租戶的數據安全性，并幫助您更接近零信任安全狀態。

與 DPU 的其他潛在集成包括更復雜的軟件定義的網絡卸載、在 BlueField 上運行防火墻代理、精確時間同步、帶數據包速度的視頻流，以及使用 DPU 收集遙測數據。

藍田 -2 DPU 現在可從 NVIDIA 獲得，藍田 -3 DPU 將于 2022 年晚些時候開始采樣。此外， BlueField DPU 不久將在 NVIDIA LaunchPad 云服務中進行測試。

如果您想在運行 NVIDIA BlueField DPU 的 Red Hat OpenShift 上進行測試或開發，請使用表明你的興趣。

總結

如果您的公司希望在數據中心采用云原生計算， NVIDIA BlueField DPU 、 Red Hat Enterprise Linux 和 Red Hat OpenShift 的組合將提供一個高效、創新的開放式混合云平臺，具有新的安全功能。這個強大的平臺提供硬件加速功能，以運行關鍵的軟件定義的網絡、存儲和安全功能。

現在，可以分配更多的服務器資源來運行云本地工作負載，以及傳統的業務應用程序。

有關更多信息，請參閱以下參考資料：

試運行 NVIDIA BlueField DPU 上的 Red Hat OpenShift
看電視用 BlueField DPU 和 OpenShift 加速 Kubernetes 混合云 GTC 會議
了解有關 Red Hat 和 NVIDIA 的解決方案的更多信息
了解更多關于 NVIDIA BlueField DPU
閱讀 Red Hat OpenShift 的商業價值 IDC 白皮書

使用 Red Hat OpenShift 和 NVIDIA BlueField DPU 加速云就緒基礎設施和 Kubernetes

紅帽 OpenShift 的好處

DPU 的工作原理

增加紅帽和 NVIDIA 之間的網絡集成

在 DPU 上運行 OpenShift

OpenShift 在 DPU 上卸載帶來了顯著的成本節約效益

解決方案路線圖和在 BlueField 上部署 OpenShift

總結

相關資源

標簽

關于作者

使用 Red Hat OpenShift 和 NVIDIA BlueField DPU 加速云就緒基礎設施和 Kubernetes

紅帽 OpenShift 的好處

DPU 的工作原理

增加紅帽和 NVIDIA 之間的網絡集成

在 DPU 上運行 OpenShift

OpenShift 在 DPU 上卸載帶來了顯著的成本節約效益

解決方案路線圖和在 BlueField 上部署 OpenShift

總結

相關資源

標簽

關于作者

相關文章

借助 NVIDIA DOCA 平臺框架，助力新一代 DPU 加速云基礎設施

相關文章

使用 ROS 2 MoveIt 和 NVIDIA Isaac Sim 創建逼真的機器人模擬

使用 NVIDIA Isaac ROS 開發人員預覽版 3 構建高性能機器人應用程序

NVIDIA DGX 云與 Oracle 云基礎架構上的高性能存儲

GROMACS 2023 中的 CUDA 圖指南

利用三維合成數據進行自舉目標檢測模型訓練