NVIDIA NIM 微服務 是一套易于使用的云原生微服務,可縮短產品上市時間,并簡化生成式 AI 模型在云、數據中心、云和 NVIDIA GPU 加速工作站的部署,開發者對這些微服務表現出極大興趣。
為滿足不同用例的需求,NVIDIA 正在推出各種打包的 AI 模型作為 NVIDIA NIM 微服務,以在 生成式 AI 推理工作流 中啟用關鍵功能。
典型的生成式 AI 應用集成了多個不同的 NIM 微服務。例如,在 RAG 工作流中,多回合對話式 AI 使用 LLM、嵌入和重新排序 NIM 微服務。這些微服務的部署和生命周期管理及其對生產環境中的生成式 AI 工作流的依賴項可能會給 MLOps 和 LLMOps 工程師以及 Kubernetes 集群管理員帶來額外的工作量。
因此,NVIDIA 宣布推出 NVIDIA NIM Operator ,這是一種 Kubernetes Operator,旨在促進在 Kubernetes 集群上部署、擴展、監控和管理 NVIDIA NIM 微服務。借助 NIM Operator,您只需單擊幾下或發出命令,即可部署、自動擴展和管理 NVIDIA NIM 微服務的生命周期。
集群管理員和 MLOps 和 LLMOps 工程師無需投入精力來手動部署、擴展和管理 AI 推理管道的生命周期。NIM Operator 可以處理所有這些以及更多工作。
核心功能和優勢?
開發者希望減少在本地部署中大規模部署 AI 推理管道的工作量。NIM Operator 通過簡化、輕量級的部署來實現這一點,并在 Kubernetes 上管理 AI NIM 推理管道的生命周期。NIM Operator 還支持預緩存模型,以實現更快的初始推理和自動擴展。


圖 2.NIM Operator Helm 部署
智能模型預緩存?
NIM Operator 提供 模型預緩存 ,可以降低初始推理延遲并實現更快的自動擴展。它還支持在氣隙環境中部署模型。
通過指定 NIM 配置文件和標簽來使用 NIM 智能模型預緩存,或者讓 NIM Operator 根據 Kubernetes 集群上可用的 GPU 自動檢測最佳模型。您可以根據需要在任何可用節點(僅 CPU 或 GPU 加速節點)上預先緩存模型。
選擇此選項后,NIM Operator 會在 Kubernetes 中創建永久性體積聲明(PVC),然后在集群中下載并緩存 NIM 模型。然后,NIM Operator 會使用 NIMCache
自定義資源來部署和管理此 PVC 的生命周期。

圖 3.NIM 微服務緩存部署
自動化 AI NIM 工作流部署?
NVIDIA 正在引入兩種 Kubernetes 自定義資源定義 (CRD) 來部署 NVIDIA NIM 微服務: NIMService 和 NIMPipeline 。
- 部署后,
NIMService
將每個 NIM 微服務作為獨立的微服務進行管理。 NIMPipeline
支持集中部署和管理多個 NIM 微服務。
圖 4 顯示了作為微服務管道管理的 RAG 管道。您可以將多個管道作為集合而非單個服務進行管理。

圖 4.NIM 微服務管道部署
自動縮放?
NIM Operator 支持使用 Kubernetes Horizontal Pod Autoscaler (HPA) 自動擴展 NIMService 部署 及其 ReplicaSet
。
NIMService
和 NIMPipeline
CRD 支持所有常見的 HPA 指標和擴展行為,例如:
- 指定最小和最大副本數量
- 使用以下指標進行縮放:
- 每個 pod 的資源指標,例如 CPU
- 每個 pod 的自定義指標,例如 GPU 顯存使用情況
- 目標指標,例如 NIM 最大請求或
KVCache
- 外部指標
您還可以指定任何 HPA 水平縮放和縮小行為,例如,用于防止抖動的穩定窗口以及用于控制在縮放時副本變化率的縮放策略。
有關更多信息,請參閱 GPU 指標 。

圖 5.NIM 自動擴展
第 2 天操作?
NIMService
和 NIMPipeline
支持通過可定制的滾動策略輕松滾動升級 NIM。更改 NIMService
或 NIMPipeline
CRD 中 NIM 的版本號,NIM Operator 會更新集群中的 NIM 部署。
NIMService
?Pod 中的任何更改都將反映在?NIMService
?和?NIMPipeline
?狀態中。您還可以為?NIMService
?添加 Kubernetes ingress。?
支撐矩陣?
在啟動時,NIM Operator 支持推理 LLM 和檢索—嵌入 NIM 微服務。
我們正在不斷擴展受支持的 NVIDIA NIM 微服務列表 。 有關受支持的 NIM 微服務完整列表的更多信息,請參閱 平臺支持 。
結束語?
通過自動執行 NVIDIA NIM 微服務的部署、擴展和生命周期管理,NIM Operator 使企業團隊更輕松地采用 NIM 微服務并加速人工智能的采用。
這一努力符合我們的承諾,即讓 NIM 微服務易于采用、生產就緒且安全。NIM Operator 將成為 NVIDIA AI Enterprise 未來版本的一部分,提供企業支持、API 穩定性和主動安全補丁。
立即通過 NGC 開始使用 NIM Operator ,或從 GitHub 資源庫 獲取。有關安裝、使用或問題的技術問題,請在資源庫中提交問題。
?