AI 開發已成為現代軟件工程的核心部分,NVIDIA 致力于尋找方法,為所有希望開始使用 AI 的開發者提供優化的加速計算。
為解決這一問題,我們一直在努力通過 NVIDIA Launchables 使加速計算堆棧更易于訪問:預配置的 GPU 計算環境,使您能夠部署參考工作流,并在提供所需計算的情況下立即開始構建。
NVIDIA Launchables 是什么?
NVIDIA Launchables 是具有預定義配置的一鍵式可部署 GPU 開發環境,可幫助您啟動并運行工作流。它們可用作模板,包含實現目標所需的所有必要組件:
- NVIDIA GPU
- Python
- CUDA
- Docker 容器
- 開發框架,包括 NVIDIA NIM、NVIDIA NeMo 和 NVIDIA Omniverse
- SDK
- 依賴項
- 環境配置
它們還可以包含 GitHub 庫或在 GPU 實例中自動設置和掛載的 Jupyter Notebooks。
對于在多個環境中工作的團隊或個人開發者而言,Launchables 可確保設置一致且可再現,而無需手動配置和額外開銷:
- 按需訪問 NVIDIA GPU: 啟動預設變量指定的環境,以更快地實現價值,從而開始評估參考工作流,即使沒有 GPU 也不例外。
- 社區:配置環境,以便其他人輕松部署。可用于分享演示、演示訓練和推理工作流,以及使用參考代碼示例進行教學。創作者會收到有關如何查看或部署 Lau n chable 的指標。
可啟動示例?
以下是 Launchable 派上用場的幾種情況:
- 設置 Megatron-LM 進行 GPU 優化訓練
- 運行 NVIDIA AI 藍圖進行多模態 PDF 數據提取
- 使用 NVIDIA TensorRT-LLM 部署 Llama3-8B 進行推理
設置 Megatron-LM 進行 GPU 優化訓練
在修改張量或管道并行等不同的并行技術之前,您必須擁有 PyTorch、CUDA 和強大的 GPU 設置,才能擁有合理的訓練管道。
借助 Megatron-LM Launchable,您可以從云合作伙伴處訪問包含 PyTorch、CUDA 和 Megatron-LM 設置的 8 個 H100 GPU 節點環境。現在,您可以立即調整不同的參數 (例如 --tensor-model-parallel-size
和 --pipeline-model-parallel-size
),以確定哪種并行技術最適合您的特定模型大小和預訓練要求。
運行 NVIDIA AI Blueprint 進行多模態 PDF 數據提取
非結構化 PDF 源通常包含運行 RAG 和其他下游生成式 AI 用例必須提取的文本、表格、圖表和圖像。
PDF-ingest-blueprint Launchable 隨附一個 Jupyter notebook,可為企業合作伙伴設置 PDF 數據提取工作流。借助通過 Launchable 部署的 NVIDIA-Ingest 微服務和各種 NIM 微服務,您可以設置生產級工作流,以在大量 PDF 數據的語料庫上并行執行文檔分割和測試檢索。
使用 NVIDIA TensorRT-LLM 部署 Llama3-8B 進行推理
使用 TRT-LLM Launchable 運行 Llama3 推理隨附 Jupyter notebook 指南 ,并用作文檔。它演示了如何使用 TensorRT-LLM 部署 Llama3 以進行低延遲推理,方法是將模型轉換為 ONNX 中間表示,通過構建配置創建底層運行時 (使用 --gpt_attention_plugin
實現注意力機制優化插件,使用 --gemm_plugin
進行矩陣乘法運算),并部署 TensorRT 引擎對輸入令牌運行推理。
可啟動權益?
在收集早期用戶的反饋后,以下是一些核心技術功能,這些功能讓開發者對使用 Launchables 實現可再現的工作流程倍感興奮:
- 真正的一鍵部署
- 環境再現性
- 靈活的配置選項
- 專為協作打造
真正的一鍵部署?
開發環境設置通常涉及數小時的調試依賴項、配置 GPU 驅動程序和測試框架兼容性。
Launchables 通過提供帶有框架、CUDA 版本和硬件配置的預配置環境,將此流程簡化為一鍵式部署流程。這意味著您可以立即開始編寫代碼,而無需糾結于基礎架構。
環境再現性?
環境不一致仍然是 AI 開發團隊調試用度的主要來源。
可啟動程序通過將整個開發堆棧 (從 CUDA 驅動程序到框架版本) 打包成版本控制、可復制的配置來解決此問題。當您共享可啟動 URL 時,您可以保證任何最終用戶都能獲得相同的開發環境,從而消除“在我的機器上工作”的情況。
靈活的配置選項?
不同的人工智能工作負載需要不同的硬件和軟件配置。
Launchables 通過精細環境自定義來支持這一點:
- 根據您的 vRAM 需求選擇特定的 NVIDIA GPU (T4 到 H100)。
- 使用精確的 Python 和 CUDA 版本要求定義容器配置。
- 包含特定的 GitHub 存儲庫或 Jupyter Notebook,以便自動安裝到 GPU 實例中。
專為協作打造?
可啟動內容可讓任何人通過單個 URL 共享完整的開發環境,從而簡化協作。對于開源維護人員、教學講師,甚至是共享內部項目的團隊成員,您可以跟蹤部署指標,以了解其他人如何使用您的環境。
這對于確保研究環境中的再現性以及在分布式團隊中維護一致的訓練環境也特別有價值。
創建可啟動對象?
創建 Launchable 非常簡單:
- 選擇計算 :從一系列 NVIDIA GPU 中進行選擇并自定義計算資源。
- 配置您的環境 :選擇具有特定 Python 和 CUDA 版本的 VM 或容器配置。
- 添加代碼 :連接您的 Jupyter notebook 或 GitHub 存儲庫,以添加到您的端點 GPU 環境中。
- 共享和部署 :生成可共享鏈接,以便其他人立即部署同一環境。
創建 Launchable 后,您將獲得以下內容:
- 可共享的 URL:直接或通過 YouTube 視頻或博客文章等素材與他人共享,以便任何人都可以訪問 Lau n chable。保存在你的便簽中,回到過去的預配置設置。
- 標記代碼:在 GitHub readME、Jupyter notebook 等中嵌入一鍵式部署標記。
當您與其他人共享 URL 以供使用或保存以用于您自己的可復制設置時,您可以查看有關 Launchable 的查看和部署次數的指標。
立即開始使用一鍵式部署
Launchable 可讓您打包、版本和即時部署精確的配置,從而顯著減少共享和復制 GPU 開發環境的傳統摩擦。團隊花在基礎架構設置上的時間更少,而花在構建 AI 應用上的時間更多。
隨著新的 NIM 微服務以及其他 NVIDIA 軟件、SDK 和庫的發布,我們正在積極擴展 build.nvidia.com 上隨時可用的 Launchables。立即探索它們!