使用 NVIDIA GPU Operator 與 Kubernetes 協調加速虛擬機

如今，許多組織在容器中運行應用程序，以利用基于 Kubernetes 的云原生平臺提供的強大編排和管理。然而，虛擬機仍然是企業的主要數據中心基礎設施平臺，并不是所有應用程序都可以輕松修改為在容器中運行。例如，需要較舊操作系統、自定義內核模塊或專用硬件的應用程序需要更多的精力來進行容器化。

KubeVirt 和 OpenShift 虛擬化是 Kubernetes 的附加組件，提供虛擬機（ VM ）管理。這些解決方案消除了為 VM 和容器工作負載管理單獨集群的需要。 KubeVirt 是一個社區支持的開源項目，它也是 Red Hat 的 OpenShift 虛擬化功能的上游項目。

多年來， NVIDIA GPU 一直在加速虛擬化的應用程序， NVIDI 還創建了技術，支持 Kubernetes 管理的容器的 GPU 加速。 NVIDIA GPU Operator 的最新版本增加了對 KubeVirt 和 OpenShift 虛擬化的支持。現在，作為虛擬機運行的 GPU 加速應用程序也可以由 Kubernetes 協調，就像普通企業應用程序一樣，實現統一管理。

KubeVirt 中的 GPU 和 OpenShift 虛擬化

NVIDIA GPU Operator v22.9 使 GPU 加速容器和 GPU 加速虛擬機能夠使用 NVIDIA -virtual GPU （ vGPU ）或 PCI passthrough 在同一集群中并排運行。此版本引入了支持虛擬機的新軟件組件。

此外，操作員還負責提供自動化來管理該軟件的部署、配置和生命周期，從而減輕集群管理員的操作開銷。下面提供了有關這些組件的更多詳細信息。

這個vfio-pci驅動器（虛擬功能 I / O ）提供了一個安全的用戶空間驅動程序，當使用物理 GPU 進行 PCI 直通時需要該驅動程序。 PCI 通過將整個 GPU 作為 PCI 設備呈現給虛擬機。使用 PCI 直通時， GPU 不能共享，但提供最高性能。

NVIDIA vGPU Manager 是安裝在虛擬機監控程序上的驅動程序，支持 NVIDIA Virtual GPU 技術。 NVIDIA v GPU 使多個虛擬機能夠同時對單個物理 GPU 進行基于時間的共享訪問。

NVIDIA vGPU Device Manager 負責與 v GPU 管理器交互，并在工作節點上創建 v GPU 設備。

NVIDIA KubeVirt 設備插件 發現物理設備和 NVIDIA v GPU 設備并向 kubelet 發布廣告，以便它們可以被請求并分配給 VM 。 Kubelet 是運行在集群中每個節點上的代理，負責節點和 Kubernetes 控制平面之間的通信。

部署計劃

在部署之前，務必了解一些限制。目前，不支持 MIG 支持的 v GPU 實例。此外，給定的 GPU 工作節點只能運行單一類型容器、具有 PCI 直通的虛擬機或具有 NVIDIA vGPU 的虛擬機的 GPU 工作負載，但不能同時運行。

要啟用此新功能，請在 ClusterPolicy 中將sandboxWorkloads.enabled設置為true。啟用后， GPU 操作員將管理和部署支持虛擬機所需的新軟件組件。默認情況下，此選項處于禁用狀態，這意味著 GPU 操作員將僅為容器工作負載提供工作節點。

管理員能夠通過使用 Kubernetes 節點標簽來控制工作負載的部署位置。 GPU Operator v22.9 引入了一個新的節點標簽，nvidia.com/gpu.workload.config，它指示 GPU 操作員部署哪些軟件組件，并因此控制節點支持的 GPU 工作負載類型。該節點標簽可以采用值container、 vm-passthrough和vm-vgpu，這些值對應于現在支持的不同工作負載。

這個概念允許管理員擁有機器類型池，每種類型具有不同的功能，并由一個公共控制平面管理。如果nvidia.com/gpu.workload.config 節點標簽不在 GPU 工作節點上， GPU 操作員將使用默認工作負載類型，該類型可通過sandboxWorkloads.defaultWorkload 字段在 ClusterPolicy 中配置。

結論

GPU Operator v22.9 帶來了在 Kubernetes 上使用 KubeVirt 和 OpenShift 虛擬化運行 GPU 支持的工作負載所需的額外功能。 Kubernetes 中的虛擬機可以使用 PCI 直通或 NVIDIA vGPU 連接 GPU 設備。這種靈活性消除了重構 GPU 加速應用程序以支持容器化的需要，從而加快了云原生平臺的采用。管理員可以繼續在 VM 中運行這些應用程序以及其他容器本地應用程序，由 Kubernetes 執行編排。

開始使用

要開始使用 GPU 加速虛擬機，請參閱 Running KubeVirt VMs with the GPU Operator 上的官方文檔。通過 gpu-operator/issues GitHub 存儲庫提交反饋和錯誤報告。還鼓勵對 kubernetes/gpu-operator GitLab 存儲庫的貢獻。

其他資源

KubeVirt
Virtualization with Red Hat OpenShift
Release Notes – NVIDIA Cloud Native Technologies Documentation

使用 NVIDIA GPU Operator 與 Kubernetes 協調加速虛擬機

KubeVirt 中的 GPU 和 OpenShift 虛擬化

部署計劃

結論

開始使用

其他資源

相關資源

標簽

關于作者

使用 NVIDIA GPU Operator 與 Kubernetes 協調加速虛擬機

KubeVirt 中的 GPU 和 OpenShift 虛擬化

部署計劃

結論

開始使用

其他資源

相關資源

標簽

關于作者

相關文章

向 NVIDIA GPU Operator 添加 MIG、預裝驅動程序等

相關文章

使用 NVIDIA Holoscan 3.0 中的動態流控制輕松構建邊緣 AI 應用

借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能

NVIDIA 展示用于游戲 AI 推理和簡化實操機會的 GeForce NOW

NVIDIA 虛擬 GPU 18.0 可在每個虛擬化平臺上實現適用于 AI 的 VDI

AI 模型為環保人士提供大規模保護漁業和野生動物的新工具