Neal Vaidya – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 13 Jun 2024 09:17:18 +0000
zh-CN
hourly
1
196178272 -
借助 NVIDIA NIM 無縫部署大量 LoRA Adapters
http://www.open-lab.net/zh-cn/blog/seamlessly-deploying-a-swarm-of-lora-adapters-with-nvidia-nim/
Fri, 07 Jun 2024 07:49:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=10358
Continued]]>
最新的先進基礎大型語言模型 (LLM) 擁有數十億個參數,并已在數萬億個輸入文本標記上進行了預訓練。它們通常在各種用例上都取得了驚人的成果,而無需進行任何定制。盡管如此,研究表明,通過使用高質量、特定領域的數據集調整 LLM 可以實現下游任務的最佳準確率。 在許多情況下,較小的自定義模型可以美甚至優于較大的通用 LLM,同時顯著降低部署成本。但是,針對特定下游任務定制模型可能會在創建和部署期間帶來重大挑戰。 完整的 full fine-tuning 對于大型語言模型(LLM,即更新模型的所有參數),由于在整個模型中學習所需的計算基礎設施數量,可能很困難。在部署時,基礎設施成本也會增加,因為用戶需要在內存中托管多個大型模型,或者隨著整個模型的交換而承受更高的延遲。Low-rank adaptation(LoRA)是一種緩解這兩個問題的技術。 本文簡要概述了 LoRA,
Source
]]>
10358
-
借助 NVIDIA TensorRT-LLM 和 NVIDIA Triton 推理服務器提升 Meta Llama 3 性能
http://www.open-lab.net/zh-cn/blog/turbocharging-meta-llama-3-performance-with-nvidia-tensorrt-llm-and-nvidia-triton-inference-server/
Mon, 22 Apr 2024 05:16:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=9656
Continued]]>
我們很高興地宣布支持 Meta Llama 3 系列模型,通過 NVIDIA TensorRT LLM 加速和優化 LLM 推理性能。您現在可以立即嘗試 Llama 3 8B 和 Llama 3 70B,該系列中的第一個模型,通過瀏覽器用戶界面進行體驗。另外,您也可以通過 NVIDIA API 產品目錄 中的 API 端點訪問 Llama 3,后者被包裝為 NVIDIA NIM,提供了標準 API,能夠部署在任何地方。 大型語言模型需要大量的計算資源。它們的大小使其運行成本高昂且速度緩慢,尤其是在沒有正確技術的情況下。許多優化技術都可用,例如內核融合和量化到運行時優化(如 C++ 實現、KV 緩存、連續運行中批處理和分頁注意力)。 開發人員必須決定哪種組合有助于他們的用例。 TensorRT-LLM 簡化了這項工作。 TensorRT-LLM 是一個開源庫,
Source
]]>
9656
-
NVIDIA NIM 提供經過優化的推理微服務,用于大規模部署 AI 模型
http://www.open-lab.net/zh-cn/blog/nvidia-nim-offers-optimized-inference-microservices-for-deploying-ai-models-at-scale/
Mon, 18 Mar 2024 04:59:20 +0000
http://www.open-lab.net/zh-cn/blog/?p=9286
Continued]]>
數字生成的生成式 AI 采用率一直很高。在 2022 年推出 OpenAI 聊天 GPT 的推動下,這項新技術在幾個月內積累了超過 1 億用戶,幾乎推動了各行各業的開發活動激增。 到 2023 年,開發者開始使用 Meta、Mistral、Stability 等公司的 API 和開源社區模型創建 POC。 進入 2024 年后,企業組織正將注意力轉向大規模生產部署,其中包括將 AI 模型連接到現有企業基礎設施、優化系統延遲和吞吐量、日志記錄、監控和安全性等。這種生產路徑既復雜又耗時,需要專門的技能、平臺和流程,尤其是大規模部署。 NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分,為開發 AI 驅動的企業應用程序和在生產中部署 AI 模型提供了簡化的路徑。 NIM 是一套經過優化的云原生微服務,旨在縮短上市時間,并簡化生成式 AI 模型在云、
Source
]]>
9286
-
掌握 LLM 技術:推理優化
http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-inference-optimization/
Fri, 17 Nov 2023 05:14:21 +0000
http://www.open-lab.net/zh-cn/blog/?p=8306
Continued]]>
通過堆疊 Transformer 層來創建大型模型,可以提高準確性、實現少量學習功能,并且在各種語言任務中實現近乎人類的性能。這些基礎模型的訓練成本高昂,而且在推理過程中可能會占用大量內存和計算資源(這是一種重復性成本)。目前最熱門的大型語言模型 (LLM)可以達到數百億到數千億的參數規模,并且根據用例,可能需要處理長輸入(或上下文),這也會增加費用。 本文討論了大型語言模型(LLM)推理中最緊迫的挑戰及其實用解決方案。建議讀者對 Transformer 架構 和通用注意力機制有基本的了解。我們將在下一節重點討論掌握 LLM 推理復雜性的重要性。 大多數熱門的僅使用解碼器的 LLM (例如 GPT-3)都基于因果關系建模目標進行了預訓練,本質上是作為次詞預測器。這些 LLM 接受一系列標記作為輸入,并以自回歸方式生成后續標記,直到它們滿足停止標準(例如,
Source
]]>
8306
-
NVIDIA AI Foundation 模型:使用生產就緒型 LLM 構建自定義企業聊天機器人和 Co-Pilot
http://www.open-lab.net/zh-cn/blog/nvidia-ai-foundation-models-build-custom-enterprise-chatbots-and-co-pilots-with-production-ready-llms/
Wed, 15 Nov 2023 07:01:39 +0000
http://www.open-lab.net/zh-cn/blog/?p=8252
Continued]]>
大型語言模型(LLM)正在革新數據科學領域,特別是在自然語言理解、AI 以及 機器學習 方面。針對特定領域的見解量身打造的自定義 LLM 在企業應用程序中的吸引力越來越大。 NVIDIA NeMo Megatron-3 8B 系列 基礎模型 是一款功能強大的新工具,用于構建生產就緒型 生成式 AI。從客戶服務 AI 聊天機器人到尖端 AI 產品,它在企業中促進創新的應用廣泛。 這些新的基礎模型 NVIDIA NeMo 端到端框架,用于構建、自定義和部署為企業量身打造的 LLM。企業現在可以使用這些工具快速、經濟高效地大規模開發 AI 應用程序。這些應用程序可以在云、數據中心以及 Windows 臺式機和筆記本電腦上運行。 Nemotron-3 8B 系列可在 Azure AI 模型目錄、HuggingFace 和 NVIDIA NGC 的 NVIDIA AI…
Source
]]>
8252
-
現已公開發布!歡迎使用 NVIDIA TensorRT-LLM 優化大語言模型推理
http://www.open-lab.net/zh-cn/blog/optimizing-inference-on-llms-with-tensorrt-llm-now-publicly-available/
Thu, 19 Oct 2023 06:54:42 +0000
http://www.open-lab.net/zh-cn/blog/?p=8071
Continued]]>
NVIDIA 于 2023 年 10 月 19 日公開發布 TensorRT-LLM,可在 NVIDIA GPU 上加速和優化最新的大語言模型( Large Language Models)的推理性能。該開源程序庫現已作為 NVIDIA NeMo 框架的一部分,在 /NVIDIA/TensorRT-LLM GitHub 資源庫中免費提供。 大語言模型徹底改變了人工智能領域,并創造了與數字世界交互的全新方式。但是,隨著世界各地的企業和應用開發者想要在自己的工作中采用大語言模型,運行這些模型的相關問題開始凸顯。 簡而言之,大語言模型規模龐大。如果不采用正確的技術,那么運行大語言模型的成本不僅會很高,速度也會很慢。 為解決這一問題,從模型優化(如內核融合和量化)到運行時優化(如 C++ 實現、KV 緩存、連續動態批處理 continuous in-flight…
Source
]]>
8071
-
使用 NVIDIA Triton 管理服務擴展深度學習部署
http://www.open-lab.net/zh-cn/blog/scaling-deep-learning-deployments-with-nvidia-triton-management-service/
Tue, 12 Sep 2023 09:47:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=7858
Continued]]>
組織正在以前所未有的速度將機器學習(ML)集成到整個系統和產品中。他們正在尋找解決方案,以幫助處理在生產規模部署模型的復雜性。 NVIDIA Triton Management Service (TMS) 是 NVIDIA AI Enterprise 獨家提供的一款新產品,有助于實現這一目標。具體來說,它有助于管理和協調一支由 NVIDIA Triton Inference Servers 在 Kubernetes 集群中運行的團隊。TMS 使用戶能夠擴展其 NVIDIA Triton 部署,以高效地處理各種各樣的工作負載。它還改善了開發人員協調所需資源和工具的體驗。 本文探討了開發人員和 MLOps 團隊在大規模部署模型時面臨的一些最常見的挑戰,以及 NVIDIA Triton 管理服務如何解決這些挑戰。 任何規模的模型部署都會帶來一系列挑戰。
Source
]]>
7858
-
NVIDIA TensorRT-LLM 在 NVIDIA H100 GPU 上大幅提升大語言模型推理能力
http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/
Fri, 08 Sep 2023 04:01:53 +0000
http://www.open-lab.net/zh-cn/blog/?p=7796
Continued]]>
大語言模型(LLM)提供異常強大的新功能,拓展了 AI 的應用領域。但由于其龐大的規模和獨特的執行特性,很難找到經濟高效的使用方式。 NVIDIA 一直在與 Meta、Anyscale、Cohere、Deci、Grammarly、Mistral AI、MosaicML(現已并入 Databricks)、OctoML、ServiceNow、Tabnine、Together AI 和 Uber 等頭部企業密切合作,共同加速和優化 LLM 推理性能。 這些創新已被集成到開源的 NVIDIA TensorRT-LLM 軟件中,可用于 Ampere、Lovelace 和 Hopper 架構 GPU,并將在未來幾周內發布。TensorRT-LLM 包含 TensorRT 深度學習編譯器,并且帶有經過優化的內核、前處理和后處理步驟,以及多 GPU/多節點通信原語,
Source
]]>
7796
-
使用 Kubernetes 自動縮放 NVIDIA Riva 部署,用于生產中的語音 AI
http://www.open-lab.net/zh-cn/blog/autoscaling-nvidia-riva-deployment-with-kubernetes-for-speech-ai-in-production/
Thu, 12 Jan 2023 09:23:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=6167
Continued]]>
語音 AI 應用,從呼叫中心到虛擬助理,嚴重依賴 自動語音識別 ( ASR )和文本轉語音( TTS )。 ASR 可以處理音頻信號并將音頻轉錄為文本。語音合成或 TTS 可以實時從文本中生成高質量、自然的聲音。語音 AI 的挑戰是實現高精度并滿足實時交互的延遲要求。 NVIDIA Riva 是一個 GPU 加速 SDK ,用于構建語音 AI 應用程序,使用最先進的模型實現高精度,同時提供高吞吐量。 Riva 提供世界級的語音識別和文本到語音技能,以與人類進行多種語言的交互。 Riva 可以部署在內部 、云中、邊緣或嵌入式平臺上,您可以擴展 Riva 服務器,以低延遲處理數百或數千個實時流。這篇文章一步一步地指導您如何使用 Kubernetes 進行自動縮放和 Traefik 進行負載平衡來大規模部署 Riva 服務器。 Riva 可以針對不同應用程序(如聊天機器人、
Source
]]>
6167
-
使用 NVIDIA Triton 解決人工智能推斷挑戰
http://www.open-lab.net/zh-cn/blog/solving-ai-inference-challenges-with-nvidia-triton/
Wed, 21 Sep 2022 08:33:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5193
Continued]]>
在生產中部署 AI 模型以滿足 AI 驅動應用程序的性能和可擴展性要求,同時保持低基礎設施成本是一項艱巨的任務。 加入 NVIDIA Triton 和 NVIDIA TensorRT 社區 ,了解最新的產品更新、錯誤修復、內容、最佳實踐等。 這篇文章為您提供了在生產中部署模型時常見的 AI 推理挑戰的高層次概述,以及目前如何跨行業使用 NVIDIA Triton 推理服務器 來解決這些問題。 我們還研究了 Triton 中最近添加的一些功能、工具和服務,它們簡化了生產中 AI 模型的部署,具有最佳性能和成本效益。 人工智能推理是運行人工智能模型進行預測的生產階段。推斷很復雜,但了解影響應用程序速度和性能的因素將有助于您在生產中交付快速、可擴展的 AI 。 這些因素的結合使得在生產中部署 AI 推理具有一定的挑戰性,
Source
]]>
5193
人人超碰97caoporen国产