Anurag Mukkara – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 21 Mar 2025 08:19:30 +0000
zh-CN
hourly
1
196178272 -
借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能
http://www.open-lab.net/zh-cn/blog/boost-llama-model-performance-on-microsoft-azure-ai-foundry-with-nvidia-tensorrt-llm/
Thu, 20 Mar 2025 08:16:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=13245
Continued]]>
微軟與 NVIDIA 合作,宣布在其 Azure AI Foundry 平臺上實現 Meta Llama 系列模型的變革性性能提升。這些進步由 NVIDIA TensorRT-LLM 優化提供支持,在保持模型輸出質量的同時,顯著提高了吞吐量、降低了延遲并提高了成本效益。 通過這些改進,Azure AI Foundry 客戶可以實現顯著的吞吐量提升:在模型目錄中的無服務器部署 (Model-as-a-Service) 產品中,Llama 3.3 70B 和 Llama 3.1 70B 模型的吞吐量提高 45%,Llama 3.1 8B 模型的吞吐量提高 34%。 更快的令牌生成速度和更低的延遲使聊天機器人、虛擬助理和自動化客戶支持等實時應用程序的響應速度更快、效率更高。這轉化為更好的價格-性能比率,顯著降低了由 LLM 驅動的應用的每個 token 的成本。
Source
]]>
13245
人人超碰97caoporen国产