在快速發展的 AI 和數據科學領域,對可擴展、高效且靈活的基礎設施的需求從未如此高。傳統基礎設施通常難以滿足現代 AI 工作負載的需求,從而導致開發和部署流程中的瓶頸。隨著組織努力大規模部署 AI 模型和數據密集型應用,云原生技術已成為游戲規則的變革性變革。
為了幫助組織完成其人工智能應用程序開發流程, NVIDIA 開發并驗證了 NVIDIA 云原生堆棧(CNS),這是一種開源參考架構,NVIDIA 用于測試和認證所有支持的人工智能軟件。
借助 CNS,您可以運行和測試由 Kubernetes 編排的容器化 GPU 加速應用程序,并在支持這些功能的平臺上輕松訪問諸如 Multi-Instance GPU(MIG)和 GPUDirect RDMA 等功能。CNS 用于開發和測試目的,但在 CNS 上開發的應用程序隨后可以在基于企業 Kubernetes 的平臺上在生產環境中運行。
本文將探討以下關鍵領域:
- CNS 的組成部分和優勢
- KServe 在 CNS 上如何增強 AI 模型評估和部署
- 在您的 AI 基礎架構中使用這些解決方案實施 NVIDIA NIM
CNS 概述?
CNS 提供的參考架構包含多種版本化軟件組件,這些組件經過共同測試,可確保實現最佳操作,其中包括
- Kubernetes
- Helm
- Containerd
- NVIDIA GPU Operator
- NVIDIA 網絡管理員
NVIDIA GPU Operator 簡化了在云原生技術上運行 AI 工作負載的能力,為用戶提供了一種輕松體驗 NVIDIA 最新功能的方法。
- 多實例 GPU (MIG)
- GPUDirect RDMA
- GPUDirect 存儲
- GPU 監控功能
CNS 還包括可選的附加工具:
- microK8
- 存儲
- 負載均衡器
- 監控
- KServe

CNS 抽象掉了設置和維護這些環境所涉及的大部分復雜性,使您能夠專注于原型設計和測試 AI 應用,而不是組裝和管理底層軟件基礎設施。
在 CNS 上開發的應用可確保與 基于 NVIDIA AI Enterprise 的部署兼容,從而實現從開發到生產的平穩過渡。另外,符合此堆棧中定義的組件版本的 Kubernetes 平臺也可確保以受支持的方式運行 NVIDIA AI 軟件。
CNS 可部署在基于 bare metal、云或 VM 的環境中。您可在 安裝指南 (用于手動安裝) 和 Ansible Playbook (用于自動安裝) 中獲取 CNS。有關更多信息,請參閱 入門指南 。
默認情況下禁用附加工具。有關啟用附加工具的更多信息,請參閱 NVIDIA Cloud Native Stack Installation 。
對預先配置的 CNS 環境感興趣? NVIDIA LaunchPad 提供預先配置的環境,以幫助您快速入門。
增強 AI 模型評估?
KServe 是一款功能強大的工具,使組織能夠在云原生環境中高效地提供機器學習模型。通過利用 Kubernetes 的可擴展性、彈性和靈活性,KServe 簡化了復雜 AI 模型和應用的原型設計和開發。
配備 KServe 的 NNS 支持部署 Kubernetes 集群,這些集群可以處理與 AI 模型訓練和推理相關的復雜工作流程。
使用 KServe 部署 NVIDIA NIM?
在 CNS 上使用 KServe 部署 NVIDIA NIM 不僅可以簡化開發流程,還可以確保您的 AI 工作流具有可擴展性、彈性和易于管理的特點。通過使用 Kubernetes 和 KServe,您可以將 NVIDIA NIM 與其他微服務無縫集成,從而創建穩健高效的 AI 應用開發平臺。有關更多信息,請參閱 KServe 提供商在云和數據中心中完成 NIMble 推理 。
按照說明使用 KServe 安裝 CNS。在集群上部署 KServe 后,我們建議啟用存儲和監控選項,以監控所部署模型的性能,并根據需要擴展服務。
然后, 按照在 KServe 上部署 NIM 的步驟操作 。有關部署 NIM 的不同方法的更多信息,請參閱 NIM-Deploy,其中包含了使用 KServe 和 Helm 圖表部署 NIM 的示例。
結束語?
CNS 是一種用于開發和測試的參考架構。它代表著生成式人工智能和數據科學工作負載部署和管理方面的重大進步,因為 CNS 的軟件棧已經過全面測試,可以無縫協作。
CNS 與 KServe 相結合,為簡化 AI 模型和應用程序開發提供了可靠的解決方案。借助這種經過驗證的參考架構,您可以克服基礎設施管理的復雜性,專注于推動 AI 計劃的創新。CNS 在裸機、云或基于虛擬機(VM)的環境中運行的靈活性、可擴展性和易用性使其成為各種規模的組織的理想選擇。
無論您是部署 NIM 微服務、使用 KServe 進行模型服務,還是集成高級 GPU 特性,CNS 都能提供加速 AI 創新所需的工具和能力,并提供以更高的效率和輕松性將強大的解決方案引入生產的途徑。
?