大型語言模型 (LLM) 正在從根本上改變我們與計算機的交互方式。從互聯網搜索到辦公效率工具,這些模型正被整合到各種應用中。它們正在推進實時內容生成、文本摘要、客戶服務聊天機器人和問答用例的發展。
如今,由 LLM 提供支持的應用程序主要在云端運行。但是,許多用例都將受益于在 Windows PC 上本地運行 LLM,包括游戲、創意、生產力和開發者體驗。
在 CES 2024 上, NVIDIA 發布了一些開發者工具,用于在適用于 Windows PC 的 NVIDIA RTX 系統上加速 LLM 推理和開發。您現在可以使用 NVIDIA 端到端開發者工具在 NVIDIA RTX AI 就緒型 PC 上創建和部署 LLM 應用。
支持社區模型和原生連接器
NVIDIA 剛剛宣布為熱門社區模型提供優化支持,包括 Phi-2。除了在 NVIDIA RTX 系統上對 Lama2、Mistral-7B 和 Code Lama 的現有支持外,這些模型還為開發者提供了廣泛的選擇,并且借助 NVIDIA TensorRT-LLM 推理后端 在 NVIDIA RTX 系統上實現了一流的性能。
NVIDIA 與開源社區合作,開發了適用于熱門應用框架的 TensorRT-LLM 原生連接器,例如 LlamaIndex。這些連接器能夠在 Windows PC 上與常用的應用開發工具無縫集成。您可以查看 LlamaIndex 示例連接器的實現。
我們還為 TensorRT-LLM 開發了 OpenAI 聊天 API 包裝器,以便您只需更改一行代碼,即可在云端或本地 Windows PC 上輕松切換運行 LLM 應用程序。現在,無論他們是在云端設計應用程序,還是在使用 NVIDIA RTX 的本地 PC 上設計應用程序,您都可以在相同的熱門社區框架中使用類似的工作流。
現在,您可以通過兩個最近推出的開源開發者參考應用訪問這些最新進展:
- A 檢索增強生成 (RAG) 項目可以完全在配備 NVIDIA RTX GPU 的 Windows PC 上運行,并且利用了 TensorRT-LLM 和 LlamaIndex。
- 這是一個參考項目,它運行著 continue.dev 插件,該插件完全在本地 Windows PC 上運行,并且與 OpenAI 聊天 API 兼容的 Web 服務器。
使用 TensorRT-LLM 和 Llamaindex 在 Windows 上運行 RAG
RAG 工作流由 Lama-2 13B 模型、TensorRT-LLM、Lamaindex 和 FAISS 向量搜索庫組成。現在,您可以使用此參考應用輕松與數據通信。圖 1 顯示了包含 NVIDIA GeForce 新聞的數據集。

Continue.dev 使用 CodeLlama-13B 在 PC 上運行 Visual Studio Code 擴展程序
continue.dev 插件最初旨在使用云端的聊天 GPT 提供 LLM 驅動的代碼輔助。它與 Visual Studio Code 集成開發環境一起使用。使用適用于 TensorRT-LLM 的 OpenAI 聊天 API 包裝器,只需更改一行代碼,此插件現在使用在支持 NVIDIA RTX 的 PC 上本地運行的 Code Lama-13B 模型。這為快速進行本地 LLM 推理提供了一條簡單路徑。
在本地運行 LLM 的優勢
在 PC 上本地運行 LLM 具有以下優勢:
- 費用:使用 LLM 推理時,無需支付云托管 API 或基礎設施的成本。您可以直接訪問您的計算資源。
- 始終開啟:您可以隨時隨地使用 LLM 功能,無需依賴高帶寬的網絡連接。
- 性能:延遲與網絡質量無關,因為整個模型在本地運行,所以延遲更低。這對于游戲或視頻會議等實時應用場景非常關鍵。 NVIDIA RTX 提供極速的 PC 加速器,具備高達 1300 TOPS 的計算能力。
- 數據隱私:隱私和專有數據始終可以保留在設備上。
NVIDIA RTX 已交付超過 1 億個系統,為新的 LLM 驅動的應用程序提供了大量用戶的安裝基礎。
NVIDIA RTX 上 LLM 的開發者工作流
現在,您可以通過以下選項在 NVIDIA RTX AI 就緒型 PC 上無縫運行 LLM:
- 訪問 Hugging Face 上的預優化模型、NGC 以及 NVIDIA AI 基礎模型。
- 使用 NVIDIA DGX 云和 NVIDIA NeMo 框架在 Omniverse 中訓練或定制您的數據模型。
- 利用 TensorRT-LLM 在 NVIDIA RTX 上量化和優化模型,以獲得出色性能。
此工作流程由 NVIDIA AI 平臺以及熱門開發工具(例如 NVIDIA AI 工作臺)支持,在云和 PC 之間實現無縫遷移。
AI Workbench 為您提供了靈活性,只需單擊幾下即可在 GPU 支持的環境之間協作處理和遷移生成式 AI 項目。項目可以在 PC 或工作站上本地啟動,然后可以橫向擴展到數據中心、公有云或 NVIDIA DGX 云等任何地方進行訓練。然后,您可以將模型帶回本地 NVIDIA RTX 系統,以便使用 TensorRT-LLM 進行推理和輕量級自定義。
AI Workbench 將于本月晚些時候發布測試版。
開始使用
借助最新更新,您現在可以在同一工作流程中使用熱門社區模型和框架,構建使用 NVIDIA RTX 在云端或 Windows PC 本地運行的應用程序。輕松將 LLM 功能添加到由現有 1 億安裝基數 NVIDIA RTX PC 提供支持的應用程序中。
想要立即開始開發基于 LLM(大型語言模型)的應用程序和項目,請訪問NVIDIA RTX 系統在 Windows PC 上進行生成式 AI 開發了解更多信息。
您是否有興趣購買由生成式 AI 驅動的 Windows 應用程序或插件?那么不妨參加NVIDIA RTX 開發者大賽,您還有機會贏取 GeForce RTX 4090 GPU、完整的 GTC 現場會議通行證等獎品。
?