使用 NVIDIA NIM 部署生成式 AI 的簡單指南

無論您是在本地還是云端工作，NVIDIA NIM 推理微服務都能為企業開發者提供易于部署的社區、合作伙伴和 NVIDIA 優化的人工智能模型。NVIDIA AI Enterprise NIM 提供了安全、精簡的前進路徑，可快速迭代并為世界級產品構建創新生成式人工智能解決方案。

使用單個優化容器，您可以在不到 5 分鐘的時間內輕松地在云或數據中心的加速 NVIDIA GPU 系統上，或在工作站和 PC 上部署 NIM。或者，如果您想避免部署容器，可以從 NVIDIA API 目錄中獲取。

使用預構建容器，這些容器可在 NVIDIA 加速基礎設施上隨時隨地使用單個命令進行部署。
保持數據 (最寶貴的企業資源) 的安全性和控制力。
通過支持使用 LoRA 等技術微調的模型，實現更高的準確性。
利用一致的行業標準 API 集成加速 AI 推理端點。
使用最熱門的生成式 AI 應用框架，例如 LangChain、LlamaIndex 和 Haystack。

本文將介紹 NVIDIA NIM 的簡單 Docker 部署。您將能夠在熱門的生成式 AI 應用框架中使用 NIM 微服務 API，例如 Haystack、LangChain 以及 LlamaIndex。有關部署 NIM 的完整指南，請參閱 NIM 文檔。

如何在 5 分鐘內部署 NIM

在開始之前，請確保您擁有先決條件。遵循 NIM 文檔。請注意，下載和使用 NIM 需要 NVIDIA AI Enterprise 許可證。

完成所有設置后，運行以下腳本：

# Choose a container name for bookkeeping
export CONTAINER_NAME=meta-llama3-8b-instruct
?
# Choose a LLM NIM Image from NGC
export IMG_NAME="nvcr.io/nim/meta/llama3-8b-instruct:24.05"
?
# Choose a path on your system to cache the downloaded models
export LOCAL_NIM_CACHE="~/.cache/nim"
mkdir -p "$LOCAL_NIM_CACHE"
?
# Start the LLM NIM
docker run -it --rm --name=$CONTAINER_NAME \
??--runtime=nvidia \
??--gpus all \
??-e NGC_API_KEY \
??-v "$LOCAL_NIM_CACHE:/opt/nim/.cache" \
??-u $(id -u) \
??-p 8000:8000 \
??$IMG_NAME

接下來，測試推理請求：

curl -X 'POST' \
????'http://0.0.0.0:8000/v1/completions' \
????-H 'accept: application/json' \
????-H 'Content-Type: application/json' \
????-d '{
??????"model": "meta-llama3-8b-instruct",
??????"prompt": "Once upon a time",
??????"max_tokens": 64
????}'

現在，您可以通過可控且優化的生產部署，安全地構建生成式 AI 應用。

NVIDIA 托管的 NIM 部署示例也可在 NVIDIA API 目錄中找到。

如何將 NIM 與您的應用集成?

雖然先前的設置應先完成，但如果您渴望在不自行部署的情況下測試 NIM，則可以使用 NVIDIA 托管的 API 端點 NVIDIA API 目錄。請按照以下步驟操作。

集成 NIM 端點?

您可以從遵循 OpenAI 規范的 completions curl 請求開始。請注意，要實時流式傳輸輸出，您應該將stream設置為True。

要在 Python 代碼中使用 NIM 和 OpenAI 庫，請執行以下操作：

如果您使用的是 NIM，則無需提供 API 密鑰。

請務必將 base_url 更新到 NIM 運行的任何位置。

from openai import OpenAI
?
client = OpenAI(
??base_url = "http://nim-address:8000/v1,
)
?
completion = client.chat.completions.create(
??model="meta/llama3-70b-instruct",
??messages=[{"role":"user","content":""}],
??temperature=0.5,
??top_p=1,
??max_tokens=1024,
??stream=True
)
?
for chunk in completion:
??if chunk.choices[0].delta.content is not None:
????print(chunk.choices[0].delta.content, end="")

NIM 還集成到應用程序框架中，例如 Haystack, LangChain 以及 LlamaIndex，為已經使用這些熱門工具構建令人驚嘆的生成式 AI 應用的開發者提供安全、可靠、加速的模型推理。

查看以下每個框架中的 notebook，了解如何使用 NIM：

借助自部署人工智能模型和 NVIDIA NIM
使用 NVIDIA NIM 的 LangChain RAG 智能代理
使用 NVIDIA NIM 的 LlamaIndex RAG 工作流程

從 NIM 中獲取更多內容?

借助使用 NVIDIA NIM 的快速、可靠和簡單的模型部署，您可以專注于構建高性能和創新的生成式 AI 工作流程和應用。要進一步了解 NIM，請了解如何使用微服務使用 LoRA 適配器自定義的大型語言模型。

NIM 將定期發布和改進。請訪問 API 目錄，以獲取用于視覺、檢索、3D、數字生物學等領域的最新 NVIDIA NIM 微服務信息。

使用 NVIDIA NIM 部署生成式 AI 的簡單指南

如何在 5 分鐘內部署 NIM

如何將 NIM 與您的應用集成?

集成 NIM 端點?

從 NIM 中獲取更多內容?

相關資源

標簽

關于作者

使用 NVIDIA NIM 部署生成式 AI 的簡單指南

如何在 5 分鐘內部署 NIM

如何將 NIM 與您的應用集成?

集成 NIM 端點?

從 NIM 中獲取更多內容?

相關資源

標簽

關于作者

相關文章

利用 NVIDIA NIM 實現 AI 模型微調部署

使用 NVIDIA NIM 和 NVIDIA NeMo Guardrails 保護生成式 AI 部署

相關文章

借助 NVIDIA DriveOS LLM SDK 簡化自動駕駛汽車應用的 LLM 部署

衡量 AI Guardrails 在生成式 AI 應用中的有效性和性能

聚焦：NAVER Place 利用 NVIDIA TensorRT-LLM 優化 SLM 基礎的垂直服務

使用 DeepSeek-R1 NIM 構建具有專家推理功能的 AI 智能體

圖像和視頻理解的視覺語言模型提示工程實踐指南