隆重推出 NVIDIA Dynamo：用于擴展推理AI模型的低延遲分布式推理框架

Tue, 18 Mar 2025 05:47:45 +0000

NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、低延遲的開源推理服務框架，用于在大規模分布式環境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上運行開源 DeepSeek-R1 模型時，該框架最多可將請求數量提升 30 倍。NVIDIA Dynamo 與 PyTorch、SGLang 等開源工具兼容， NVIDIA TensorRT-LLM 和 vLLM，加入不斷擴大的推理工具社區，助力開發者和 AI 研究人員加速 AI。 NVIDIA Dynamo 引入了幾項關鍵創新，包括：從今天開始，NVIDIA Dynamo 可供開發者在 ai-dynamo/dynamo GitHub 存儲庫中使用。對于希望縮短生產時間并獲得企業級安全性、支持和穩定性的企業，

Source

]]>

使用 NVIDIA GenAI-Perf 和 OpenAI 兼容 API 測量生成式 AI 模型性能

Thu, 01 Aug 2024 06:03:42 +0000

NVIDIA 提供 Perf Analyzer 和 Model Analyzer 等工具，幫助機器學習工程師測量和平衡延遲與吞吐量之間的權衡，這對于優化 ML 推理性能至關重要。領先組織如 Snap 已采用 Model Analyzer 確定可提高吞吐量并降低部署成本的最佳配置。但是，當為生成式 AI 模型（尤其是大型語言模型（LLMs））提供服務時，性能測量變得更加專業化。對于 LLM，我們將延遲和吞吐量指標進一步細分為令牌級指標。以下列表顯示了關鍵指標，但跟蹤請求延遲、請求吞吐量和輸出令牌數量等其他指標也很重要。在測量 LLM 時，必須快速且一致地查看用戶和模型的結果。對于許多應用程序，第一個令牌的時間被賦予最高優先級，其次是輸出令牌吞吐量和令牌間延遲。但是，能夠報告所有這些指標的工具可以幫助定義和測量對您特定系統和用例來說最重要的內容。

Source

]]>

Harry Kim – NVIDIA 技術博客

隆重推出 NVIDIA Dynamo：用于擴展推理AI模型的低延遲分布式推理框架

使用 NVIDIA GenAI-Perf 和 OpenAI 兼容 API 測量生成式 AI 模型性能