David Yastremsky – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 09 Aug 2024 06:13:00 +0000
zh-CN
hourly
1
196178272 -
使用 NVIDIA GenAI-Perf 和 OpenAI 兼容 API 測量生成式 AI 模型性能
http://www.open-lab.net/zh-cn/blog/measuring-generative-ai-model-performance-using-nvidia-genai-perf-and-an-openai-compatible-api/
Thu, 01 Aug 2024 06:03:42 +0000
http://www.open-lab.net/zh-cn/blog/?p=10945
Continued]]>
NVIDIA 提供 Perf Analyzer 和 Model Analyzer 等工具,幫助機器學習工程師測量和平衡延遲與吞吐量之間的權衡,這對于優化 ML 推理性能至關重要。領先組織如 Snap 已采用 Model Analyzer 確定可提高吞吐量并降低部署成本的最佳配置。 但是,當為生成式 AI 模型(尤其是大型語言模型(LLMs))提供服務時,性能測量變得更加專業化。 對于 LLM,我們將延遲和吞吐量指標進一步細分為令牌級指標。以下列表顯示了關鍵指標,但跟蹤請求延遲、請求吞吐量和輸出令牌數量等其他指標也很重要。 在測量 LLM 時,必須快速且一致地查看用戶和模型的結果。對于許多應用程序,第一個令牌的時間被賦予最高優先級,其次是輸出令牌吞吐量和令牌間延遲。但是,能夠報告所有這些指標的工具可以幫助定義和測量對您特定系統和用例來說最重要的內容。
Source
]]>
10945
-
用 NVIDIA 模型分析器最大化深度學習推理性能
http://www.open-lab.net/zh-cn/blog/maximizing-deep-learning-inference-performance-with-nvidia-model-analyzer/
Thu, 27 Aug 2020 04:14:59 +0000
https://developer.qa.nvidia.com/zh-cn/blog/?p=64
Continued]]>
您已經構建了深度學習推理模型,并將其部署到 NVIDIA Triton ®聲波風廓線儀推理服務器 中,以最大限度地提高模型性能。如何進一步加快模型的運行速度?進入 NVIDIA Model Analyzer ,即將發布的工具,用于收集模型的計算需求。 如果沒有這些信息,在理解一個 GPU 上運行多少個模型就有一個知識缺口。通過收集熱存儲和冷存儲需求,您可以使用它們來通知模型的調度,從而獲得以下幾個好處: 此外,還有兩個關鍵的非日程安排好處: 簡言之,理解推理模型的計算需求提供了從模型創建和硬件大小調整到可靠、高效運行模型的一系列好處。下面我們來看看 Model Analyzer ,看看它如何為最大性能推斷解決方案做出貢獻。 在使用推理服務器容器之前,必須安裝一些軟件,如 Docker 。有關詳細信息,請參閱 NVIDIA Docker : GPU…
Source
]]>
64
人人超碰97caoporen国产