LLM 基準測試：基本概念

Wed, 02 Apr 2025 08:02:10 +0000

在過去幾年中，作為廣泛的 AI 革命的一部分，生成式 AI 和大語言模型 (LLMs) 越來越受歡迎。隨著基于 LLMs 的應用在各個企業中的推廣，我們需要確定不同 AI 服務解決方案的成本效益。部署 LLM 應用的成本取決于它每秒可以處理的查詢數量，同時響應最終用戶并支持可接受的響應準確度。本文特別關注 LLMs 吞吐量和延遲測量，以評估 LLM 應用成本。 NVIDIA 為開發者提供涵蓋芯片、系統和軟件的全棧創新。NVIDIA 推理軟件堆棧包括 NVIDIA Dynamo 、 NVIDIA TensorRT-LLM 和 NVIDIA NIM 微服務。為支持開發者實現基準測試推理性能，NVIDIA 還提供了開源生成式 AI 基準測試工具 GenAI-Perf 。詳細了解如何使用 GenAI-Perf 進行基準測試。可以使用各種工具來評估 LLMs 的性能。

Source

]]>

隆重推出 NVIDIA Dynamo：用于擴展推理AI模型的低延遲分布式推理框架

Tue, 18 Mar 2025 05:47:45 +0000

NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、低延遲的開源推理服務框架，用于在大規模分布式環境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上運行開源 DeepSeek-R1 模型時，該框架最多可將請求數量提升 30 倍。NVIDIA Dynamo 與 PyTorch、SGLang 等開源工具兼容， NVIDIA TensorRT-LLM 和 vLLM，加入不斷擴大的推理工具社區，助力開發者和 AI 研究人員加速 AI。 NVIDIA Dynamo 引入了幾項關鍵創新，包括：從今天開始，NVIDIA Dynamo 可供開發者在 ai-dynamo/dynamo GitHub 存儲庫中使用。對于希望縮短生產時間并獲得企業級安全性、支持和穩定性的企業，

Source

]]>

Dynamo – NVIDIA 技術博客

LLM 基準測試：基本概念

隆重推出 NVIDIA Dynamo：用于擴展推理AI模型的低延遲分布式推理框架