組織越來越多地采用混合和多云策略來訪問最新的計算資源,始終如一地支持全球客戶,并優化成本。然而,工程團隊面臨的一個主要挑戰是,隨著堆棧的變化,在不同平臺上操作人工智能應用程序。這要求 MLOps 團隊熟悉不同的環境,并要求開發人員自定義應用程序以跨目標平臺運行。
NVIDIA 提供了一個一致的、完整的堆棧,可以在 GPU 供電的本地或云實例上進行開發。然后,您可以在任何 GPU 驅動的平臺上部署該 AI 應用程序,而無需更改代碼。
介紹最新的 NVIDIA 虛擬機映像
NVIDIA Cloud Native Stack 虛擬機映像( VMI )是 GPU 加速的。它預裝了 Cloud Native Stack ,這是一個參考體系結構,包括上游 Kubernetes 和 NVIDIA GPU 運營商。 NVIDIA Cloud Native Stack VMI 使您能夠構建、測試和運行 GPU – 由 Kubernetes 協調的加速容器化應用程序。
NVIDIA GPU 運營商自動化了在 Kubernetes 上公開 GPU ‘所需軟件的生命周期管理。它實現了高級功能,包括更好的 GPU 性能、利用率和遙測。 GPU Operator 通過與業界領先的 Kubernetes 解決方案的兼容性認證和驗證,使組織能夠專注于構建應用程序,而不是管理 Kubernete 基礎設施。
NVIDIA Cloud Native Stack VMI 可在 AWS 、 Azure 和 GCP 上使用。
現已推出: NVIDIA 提供企業級支持
要獲得對 NVIDIA Cloud Native Stack VMI 和 GPU 運營商的企業支持,請通過 NVIDIA 合作伙伴。
開發從概念到部署的人工智能解決方案并不容易。借助 NVIDIA AI 企業支持服務,讓您的 AI 項目保持正軌。購買 NVIDIA AI Enterprise 軟件套件時,此全面的產品可讓您直接訪問 NVIDIA 人工智能專家、定義的服務級別協議,并通過長期支持選項控制您的升級和維護計劃。還提供其他服務,包括培訓和人工智能工作量入職。
Run:ai 現已在 NVIDIA AI Enterprise 上獲得認證
Run:ai 是人工智能工作負載計算協調的行業領導者,已在其 Atlas 平臺上認證了 NVIDIA ai Enterprise ,這是一款端到端、安全的云原生人工智能軟件套件。這一額外的認證使企業能夠加快數據科學管道。他們可以專注于簡化預測性人工智能模型的開發和部署,以實現基本流程的自動化,并從數據中快速獲得見解。
Run:ai 提供了一個 ai 計算平臺,簡化了 GPU 在云和本地集群中的訪問、管理和利用。智能調度和高級分數 GPU 功能確保您為作業獲得正確的計算量。
Run:aiAtlas 包括 GPU 編排功能,幫助研究人員更有效地使用 GPU 。他們通過自動化人工智能工作負載的編排以及跨團隊和集群的硬件資源的管理和虛擬化來實現這一點。
Run:ai 可以安裝在任何 Kubernetes 集群上,為您的人工智能基礎設施提供高效的調度和監控功能。使用 NVIDIA Cloud Native Stack VMI ,您可以將云實例添加到 Kubernetes 集群中,使它們成為集群的 GPU 供電的工作節點。
以下是我們團隊一名成員的證詞:“作為一名工程師,如果沒有 NVIDIA Cloud Native Stack VMI ,需要大量的手動工作。有了 Cloud Native Stack VMI ,只需點擊兩次,就可以完成 Kubernetes 和 Docker 以及 GPU 操作員的配置。開始我的工作更容易、更快。”
在 AWS 上建立云原生堆棧 VMI
在 AWS 市場中,可以使用 launch an NVIDIA Cloud Native Stack VMI,參考 Launch an AWS Marketplace instance 說明書。
請確保滿足必要的先決條件,并按照 集群安裝說明安裝 Run:ai 后,在 概述 儀表板中,您應該看到度量開始填充。在 集群 選項卡中,您還應該看到集群已連接。
接下來,在 kube-apiserver . yaml 文件中添加一些命令組件,以便在 Run : ai 平臺上啟用用戶身份驗證。有關詳細信息,請參閱管理用戶界面設置。
默認情況下,您可以在以下目錄中找到 kube-apiserver . yaml 文件:
/etc/kubernetes/manifests/kube-apiserver.yaml |
您可以通過 kube apiserver 驗證 oidc 命令是否已成功應用。請查看 oidc
輸出中的命令。
spec:
containers:
- command:
- kube-apiserver
- --oidc-client-id=runai
- --oidc-issuer-url=https://app.run.ai/auth/realms/nvaie
- --oidc-username-prefix=-
設置 統一用戶界面 和 創建新項目。項目有助于為使用 Run : ai 平臺的數據科學家和研究人員規定 GPU 配額,以確保其可用性。
為新項目命名,并為該項目指定至少一個 GPU 。在本文中,我創建了一個有兩個配額的項目和另一個沒有配額的項目,分別標記為 nvaie-high-priority
和 nvaie-low-priority
。在創建項目后,您可以 安裝 Run:ai CLI 工具,以便您能夠向集群提交工作負載。
以下命令使用 runai CLI 提交一個作業( job1 或 job2 ),該作業利用一個名為 quickstart 的 Docker 映像。 Quickstart 包含 TensorFlow 、 CUDA 、一個模型以及輸入和訓練模型的數據。它利用一個 GPU 進行訓練( -g 1 ),并代表由-p
參數
部署一些測試作業,通過運行來顯示 Run : ai 的一些編排功能:
runai submit job1 -i gcr.io/run-ai-demo/quickstart -g 1 -p nvaie-high-priority runai submit job2 -i gcr.io/run-ai-demo/quickstart -g 1 -p nvaie-low-priority |
您可以通過運行以下命令來檢查作業的狀態:
runai describe job job1 -p nvaie-high-priority runai describe job job2 -p nvaie-low-priority |
正如您在概述儀表板
您可以提交額外的工作負載,以突出顯示您的作業搶占能力。目前nvaie-high-priority
項目保證訪問這兩個 GPU ,因為它們的分配 GPU quota 設置為 2 。您可以為nvaie-high-priority
項目,并觀察到您正在搶占nvaie-low-priority
工作
作業搶占使您能夠查看檢查點過程,將訓練工作負載的當前進度保存在檢查點中,然后搶占工作負載以將其從 GPU 中刪除。這樣可以保存訓練進度,并釋放 GPU 以運行優先級更高的工作負載。
runai submit job3 -i gcr.io/run-ai-demo/quickstart -g 1 -p nvaie-high-priority |
您可以通過運行以下命令來檢查作業的狀態:
runai describe job job3 -p nvaie-high-priority |
如果返回到概覽面板,您將看到為nvaie-high-priority
項目和來自nvaie-low-priority
被搶占并放回掛起的隊列中。當 GPU 可用時,將自動重新安排掛起隊列中的工作負載。
要清理作業,請運行以下命令:
runai delete job job1 -p nvaie-low-priority runai delete job job2 job3 -p nvaie-high-priority |
總結
NVIDIA 提供了一個一致的、完整的堆棧,可以在 GPU 供電的本地或云實例上進行開發。然后,開發人員和 MLOps 可以在任何 GPU 驅動的平臺上部署該人工智能應用程序,而無需更改代碼。
Run:ai 是人工智能工作負載計算協調的行業領導者,已在其 Atlas 平臺上認證了 NVIDIA AI Enterprise,這是一款端到端、安全的云原生人工智能軟件套件。您可以通過NVIDIA Partner獲得 NVIDIA VMI 和 GPU 運營商的企業支持。購買 NVIDIA AI Enterprise 軟件套件時,您可以直接訪問 NVIDIA 人工智能專家、定義的服務級別協議,并通過長期支持選項控制您的升級和維護計劃。
有關詳細信息,請參閱以下資源:
?