Ganesh Kudleppanavar – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 09 Apr 2025 05:47:10 +0000 zh-CN hourly 1 196178272 LLM 基準測試:基本概念 http://www.open-lab.net/zh-cn/blog/llm-benchmarking-fundamental-concepts/ Wed, 02 Apr 2025 08:02:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=13428 Continued]]> 在過去幾年中,作為廣泛的 AI 革命的一部分, 生成式 AI 和 大語言模型 (LLMs) 越來越受歡迎。隨著基于 LLMs 的應用在各個企業中的推廣,我們需要確定不同 AI 服務解決方案的成本效益。部署 LLM 應用的成本取決于它每秒可以處理的查詢數量,同時響應最終用戶并支持可接受的響應準確度。本文特別關注 LLMs 吞吐量和延遲測量,以評估 LLM 應用成本。 NVIDIA 為開發者提供涵蓋芯片、系統和軟件的全棧創新。NVIDIA 推理軟件堆棧包括 NVIDIA Dynamo 、 NVIDIA TensorRT-LLM 和 NVIDIA NIM 微服務。為支持開發者實現基準測試推理性能,NVIDIA 還提供了開源生成式 AI 基準測試工具 GenAI-Perf 。詳細了解如何 使用 GenAI-Perf 進行基準測試 。 可以使用各種工具來評估 LLMs 的性能。

Source

]]>
13428
使用 NVIDIA GenAI-Perf 和 OpenAI 兼容 API 測量生成式 AI 模型性能 http://www.open-lab.net/zh-cn/blog/measuring-generative-ai-model-performance-using-nvidia-genai-perf-and-an-openai-compatible-api/ Thu, 01 Aug 2024 06:03:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=10945 Continued]]> NVIDIA 提供 Perf Analyzer 和 Model Analyzer 等工具,幫助機器學習工程師測量和平衡延遲與吞吐量之間的權衡,這對于優化 ML 推理性能至關重要。領先組織如 Snap 已采用 Model Analyzer 確定可提高吞吐量并降低部署成本的最佳配置。 但是,當為生成式 AI 模型(尤其是大型語言模型(LLMs))提供服務時,性能測量變得更加專業化。 對于 LLM,我們將延遲和吞吐量指標進一步細分為令牌級指標。以下列表顯示了關鍵指標,但跟蹤請求延遲、請求吞吐量和輸出令牌數量等其他指標也很重要。 在測量 LLM 時,必須快速且一致地查看用戶和模型的結果。對于許多應用程序,第一個令牌的時間被賦予最高優先級,其次是輸出令牌吞吐量和令牌間延遲。但是,能夠報告所有這些指標的工具可以幫助定義和測量對您特定系統和用例來說最重要的內容。

Source

]]>
10945
人人超碰97caoporen国产