借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能

Thu, 20 Mar 2025 08:16:07 +0000

微軟與 NVIDIA 合作，宣布在其 Azure AI Foundry 平臺上實現 Meta Llama 系列模型的變革性性能提升。這些進步由 NVIDIA TensorRT-LLM 優化提供支持，在保持模型輸出質量的同時，顯著提高了吞吐量、降低了延遲并提高了成本效益。通過這些改進，Azure AI Foundry 客戶可以實現顯著的吞吐量提升：在模型目錄中的無服務器部署 (Model-as-a-Service) 產品中，Llama 3.3 70B 和 Llama 3.1 70B 模型的吞吐量提高 45%，Llama 3.1 8B 模型的吞吐量提高 34%。更快的令牌生成速度和更低的延遲使聊天機器人、虛擬助理和自動化客戶支持等實時應用程序的響應速度更快、效率更高。這轉化為更好的價格-性能比率，顯著降低了由 LLM 驅動的應用的每個 token 的成本。

Source

]]>

Anurag Mukkara – NVIDIA 技術博客

借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能