Burak Yoldemir – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 16 Mar 2023 04:38:54 +0000
zh-CN
hourly
1
196178272 -
使用集成模型在 NVIDIA Triton 推理服務器上為 ML 模型管道提供服務
http://www.open-lab.net/zh-cn/blog/serving-ml-model-pipelines-on-nvidia-triton-inference-server-with-ensemble-models/
Mon, 13 Mar 2023 04:36:03 +0000
http://www.open-lab.net/zh-cn/blog/?p=6474
Continued]]>
在許多生產級機器學習( ML )應用程序中,推理并不局限于在單個 ML 模型上運行前向傳遞。相反,通常需要執行 ML 模型的管道。例如,一個由三個模塊組成的對話式人工智能管道:一個將輸入音頻波形轉換為文本的自動語音識別( ASR )模塊,一個理解輸入并提供相關響應的大型語言模型( LLM )模塊,以及一個從 LLM 輸出產生語音的文本到語音( TTS )模塊。 或者,考慮一個文本到圖像的應用程序,其中管道由 LLM 和擴散模型組成,它們分別用于對輸入文本進行編碼和從編碼的文本合成圖像。此外,許多應用程序在將輸入數據饋送到 ML 模型之前需要對其進行一些預處理步驟,或者對這些模型的輸出進行后處理步驟。例如,輸入圖像在被饋送到計算機視覺模型之前可能需要被調整大小、裁剪和解碼,或者文本輸入在被饋送給 LLM 之前需要被標記化。 近年來, ML 模型中的參數數量激增,
Source
]]>
6474
-
使用 NVIDIA Triton 模型分析器確定規模上的最佳 AI 模型服務配置
http://www.open-lab.net/zh-cn/blog/identifying-the-best-ai-model-serving-configurations-at-scale-with-triton-model-analyzer/
Mon, 23 May 2022 04:32:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4154
Continued]]>
模型部署是 機器學習 生命周期的一個關鍵階段,在此階段,經過培訓的模型將集成到現有的應用程序生態系統中。這往往是最繁瑣的步驟之一,在這些步驟中,目標硬件平臺應滿足各種應用程序和生態系統約束,所有這些都不會影響模型的準確性。 NVIDIA Triton 推理服務器 是一個開源的模型服務工具,它簡化了推理,并具有多個功能以最大限度地提高硬件利用率和推理性能。這包括以下功能: 有關更多信息,請參閱 使用 NVIDIA Triton 推理服務器快速、可擴展的 AI 模型部署 . 優化模型部署時,需要做出幾個關鍵決策: 這些關鍵決策導致了組合爆炸,每種型號和硬件選擇都有數百種可能的配置。通常,這會導致浪費開發時間或代價高昂的低于標準的服務決策。 在本文中,我們將探討 NVIDIA Triton 型號分析儀 可以自動瀏覽目標硬件平臺的各種服務配置,
Source
]]>
4154
人人超碰97caoporen国产