使用 NVIDIA 和 Run:ai 訓練您的 AI 模型一次并部署在任何云上

組織越來越多地采用混合和多云策略來訪問最新的計算資源，始終如一地支持全球客戶，并優化成本。然而，工程團隊面臨的一個主要挑戰是，隨著堆棧的變化，在不同平臺上操作人工智能應用程序。這要求 MLOps 團隊熟悉不同的環境，并要求開發人員自定義應用程序以跨目標平臺運行。

NVIDIA 提供了一個一致的、完整的堆棧，可以在 GPU 供電的本地或云實例上進行開發。然后，您可以在任何 GPU 驅動的平臺上部署該 AI 應用程序，而無需更改代碼。

介紹最新的 NVIDIA 虛擬機映像

NVIDIA Cloud Native Stack 虛擬機映像（ VMI ）是 GPU 加速的。它預裝了 Cloud Native Stack ，這是一個參考體系結構，包括上游 Kubernetes 和 NVIDIA GPU 運營商。 NVIDIA Cloud Native Stack VMI 使您能夠構建、測試和運行 GPU – 由 Kubernetes 協調的加速容器化應用程序。

NVIDIA GPU 運營商自動化了在 Kubernetes 上公開 GPU ‘所需軟件的生命周期管理。它實現了高級功能，包括更好的 GPU 性能、利用率和遙測。 GPU Operator 通過與業界領先的 Kubernetes 解決方案的兼容性認證和驗證，使組織能夠專注于構建應用程序，而不是管理 Kubernete 基礎設施。

NVIDIA Cloud Native Stack VMI 可在 AWS 、 Azure 和 GCP 上使用。

現已推出： NVIDIA 提供企業級支持

要獲得對 NVIDIA Cloud Native Stack VMI 和 GPU 運營商的企業支持，請通過 NVIDIA 合作伙伴。

開發從概念到部署的人工智能解決方案并不容易。借助 NVIDIA AI 企業支持服務，讓您的 AI 項目保持正軌。購買 NVIDIA AI Enterprise 軟件套件時，此全面的產品可讓您直接訪問 NVIDIA 人工智能專家、定義的服務級別協議，并通過長期支持選項控制您的升級和維護計劃。還提供其他服務，包括培訓和人工智能工作量入職。

Run:ai 現已在 NVIDIA AI Enterprise 上獲得認證

Run:ai 是人工智能工作負載計算協調的行業領導者，已在其 Atlas 平臺上認證了 NVIDIA ai Enterprise ，這是一款端到端、安全的云原生人工智能軟件套件。這一額外的認證使企業能夠加快數據科學管道。他們可以專注于簡化預測性人工智能模型的開發和部署，以實現基本流程的自動化，并從數據中快速獲得見解。

Run:ai 提供了一個 ai 計算平臺，簡化了 GPU 在云和本地集群中的訪問、管理和利用。智能調度和高級分數 GPU 功能確保您為作業獲得正確的計算量。

Run:aiAtlas 包括 GPU 編排功能，幫助研究人員更有效地使用 GPU 。他們通過自動化人工智能工作負載的編排以及跨團隊和集群的硬件資源的管理和虛擬化來實現這一點。

Run:ai 可以安裝在任何 Kubernetes 集群上，為您的人工智能基礎設施提供高效的調度和監控功能。使用 NVIDIA Cloud Native Stack VMI ，您可以將云實例添加到 Kubernetes 集群中，使它們成為集群的 GPU 供電的工作節點。

以下是我們團隊一名成員的證詞：“作為一名工程師，如果沒有 NVIDIA Cloud Native Stack VMI ，需要大量的手動工作。有了 Cloud Native Stack VMI ，只需點擊兩次，就可以完成 Kubernetes 和 Docker 以及 GPU 操作員的配置。開始我的工作更容易、更快。”

在 AWS 上建立云原生堆棧 VMI

在 AWS 市場中，可以使用 launch an NVIDIA Cloud Native Stack VMI，參考 Launch an AWS Marketplace instance 說明書。

請確保滿足必要的先決條件，并按照集群安裝說明安裝 Run:ai 后，在概述儀表板中，您應該看到度量開始填充。在集群選項卡中，您還應該看到集群已連接。

接下來，在 kube-apiserver . yaml 文件中添加一些命令組件，以便在 Run : ai 平臺上啟用用戶身份驗證。有關詳細信息，請參閱管理用戶界面設置。

默認情況下，您可以在以下目錄中找到 kube-apiserver . yaml 文件：

/etc/kubernetes/manifests/kube-apiserver.yaml

您可以通過 kube apiserver 驗證 oidc 命令是否已成功應用。請查看 oidc 輸出中的命令。

spec:
  containers:
  - command:
    - kube-apiserver
    - --oidc-client-id=runai
    - --oidc-issuer-url=https://app.run.ai/auth/realms/nvaie
    - --oidc-username-prefix=-

設置統一用戶界面和創建新項目。項目有助于為使用 Run : ai 平臺的數據科學家和研究人員規定 GPU 配額，以確保其可用性。

為新項目命名，并為該項目指定至少一個 GPU 。在本文中，我創建了一個有兩個配額的項目和另一個沒有配額的項目，分別標記為 nvaie-high-priority 和 nvaie-low-priority。在創建項目后，您可以安裝 Run:ai CLI 工具，以便您能夠向集群提交工作負載。

以下命令使用 runai CLI 提交一個作業（ job1 或 job2 ），該作業利用一個名為 quickstart 的 Docker 映像。 Quickstart 包含 TensorFlow 、 CUDA 、一個模型以及輸入和訓練模型的數據。它利用一個 GPU 進行訓練（ -g 1 ），并代表由-p參數

部署一些測試作業，通過運行來顯示 Run : ai 的一些編排功能：

runai submit job1 -i gcr.io/run-ai-demo/quickstart -g 1 -p nvaie-high-priority 
runai submit job2 -i gcr.io/run-ai-demo/quickstart -g 1 -p nvaie-low-priority

您可以通過運行以下命令來檢查作業的狀態：

runai describe job job1 -p nvaie-high-priority
runai describe job job2 -p nvaie-low-priority

正如您在概述儀表板

您可以提交額外的工作負載，以突出顯示您的作業搶占能力。目前nvaie-high-priority項目保證訪問這兩個 GPU ，因為它們的分配 GPU quota 設置為 2 。您可以為nvaie-high-priority項目，并觀察到您正在搶占nvaie-low-priority工作

作業搶占使您能夠查看檢查點過程，將訓練工作負載的當前進度保存在檢查點中，然后搶占工作負載以將其從 GPU 中刪除。這樣可以保存訓練進度，并釋放 GPU 以運行優先級更高的工作負載。

runai submit job3 -i gcr.io/run-ai-demo/quickstart -g 1 -p nvaie-high-priority

您可以通過運行以下命令來檢查作業的狀態：

runai describe job job3 -p nvaie-high-priority

如果返回到概覽面板，您將看到為nvaie-high-priority項目和來自nvaie-low-priority被搶占并放回掛起的隊列中。當 GPU 可用時，將自動重新安排掛起隊列中的工作負載。

要清理作業，請運行以下命令：

runai delete job job1 -p nvaie-low-priority 
runai delete job job2 job3 -p nvaie-high-priority 

總結

NVIDIA 提供了一個一致的、完整的堆棧，可以在 GPU 供電的本地或云實例上進行開發。然后，開發人員和 MLOps 可以在任何 GPU 驅動的平臺上部署該人工智能應用程序，而無需更改代碼。

Run:ai 是人工智能工作負載計算協調的行業領導者，已在其 Atlas 平臺上認證了 NVIDIA AI Enterprise，這是一款端到端、安全的云原生人工智能軟件套件。您可以通過NVIDIA Partner獲得 NVIDIA VMI 和 GPU 運營商的企業支持。購買 NVIDIA AI Enterprise 軟件套件時，您可以直接訪問 NVIDIA 人工智能專家、定義的服務級別協議，并通過長期支持選項控制您的升級和維護計劃。

有關詳細信息，請參閱以下資源：

NVIDIA AI Enterprise
NVIDIA VMI
NVIDIA GPU Operator：
Run:ai 解決方案

使用 NVIDIA 和 Run:ai 訓練您的 AI 模型一次并部署在任何云上

介紹最新的 NVIDIA 虛擬機映像

現已推出： NVIDIA 提供企業級支持

Run:ai 現已在 NVIDIA AI Enterprise 上獲得認證

在 AWS 上建立云原生堆棧 VMI

總結

相關資源

標簽

關于作者

使用 NVIDIA 和 Run:ai 訓練您的 AI 模型一次并部署在任何云上

介紹最新的 NVIDIA 虛擬機映像

現已推出： NVIDIA 提供企業級支持

Run:ai 現已在 NVIDIA AI Enterprise 上獲得認證

在 AWS 上建立云原生堆棧 VMI

總結

相關資源

標簽

關于作者

相關文章

借助 NVIDIA 云原生堆棧實現 AI 應用開發簡化

利用 NVIDIA AI 企業在 Azure 機器學習上的力量

相關文章

借助 NVIDIA AI Enterprise 推進生產級 AI 發展

2023 年最熱門的 NVIDIA 技術博客文章：生成式 AI、LLM、機器人開發和虛擬世界的突破

使用 NVIDIA Isaac 模擬和本地化 Husky 機器人

借助 NVIDIA DeepStream 和 Edge Impulse 實現計算機視覺快速部署

生成式 AI 研究聚焦：揭開基于擴散的模型的神秘面紗