• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    數據中心/云端

    借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能

    微軟與 NVIDIA 合作,宣布在其 Azure AI Foundry 平臺上實現 Meta Llama 系列模型的變革性性能提升。這些進步由 NVIDIA TensorRT-LLM 優化提供支持,在保持模型輸出質量的同時,顯著提高了吞吐量、降低了延遲并提高了成本效益。

    通過這些改進,Azure AI Foundry 客戶可以實現顯著的吞吐量提升:在模型目錄中的無服務器部署 (Model-as-a-Service) 產品中,Llama 3.3 70B 和 Llama 3.1 70B 模型的吞吐量提高 45%,Llama 3.1 8B 模型的吞吐量提高 34%。

    更快的令牌生成速度和更低的延遲使聊天機器人、虛擬助理和自動化客戶支持等實時應用程序的響應速度更快、效率更高。這轉化為更好的價格-性能比率,顯著降低了由 LLM 驅動的應用的每個 token 的成本。

    Azure AI Foundry 中的模型目錄消除了基礎設施管理的復雜性,簡化了對這些經過優化的 Llama 模型的訪問。開發者可以使用無服務器 API 以即用即付定價輕松部署和擴展模型,快速啟用大規模用例,而無需前期基礎設施成本。

    Azure 的企業級安全性可確保客戶數據在使用 API 期間保持私密性并受到保護。

    通過將 NVIDIA 加速計算與 Azure AI Foundry 的無縫部署功能相結合,開發者和企業可以輕松擴展,降低部署成本并降低總體擁有成本(TCO),同時保持最高的質量和可靠性標準。

    NVIDIA TensorRT-LLM 優化推動性能提升

    Microsoft 和 NVIDIA 開展了深入的技術合作,以優化 Llama 模型的性能。此次合作的核心是集成 NVIDIA TensorRT-LLM,作為在 Azure AI Foundry 中服務這些模型的后端。

    最初的工作重點是 Llama 3.1 70B Instruct、Llama 3.3 70B Instruct 和 Llama 3.1 8B 模型,其中的綜合分析和聯合工程發現了一些優化機會。這些努力使得 70B 模型的吞吐量增加了 45%,8B 模型的吞吐量增加了 34%,在保留模型保真度的同時使用了 TensorRT-LLM 的新優化。

    主要增強功能包括 GEMM Swish-Gated Linear Unit (SwiGLU) 激活插件 (–gemm_swiglu_plugin fp8),該插件將兩個通用矩陣乘法 (GEMM) 無偏差融合在一起,并將 SwiGLU 激活轉換為單個內核,從而顯著提高 NVIDIA Hopper GPU 上 FP8 數據的計算效率。

    Reduce Fusion (-reduce_fusion enable) 優化將 AllReduce 之后的 ResidualAdd 和 LayerNorm 操作整合到單個內核中,從而提高延遲和整體性能,對于延遲至關重要的小批量和令牌密集型工作負載而言,尤其如此。

    另一項重大改進是 TensorRT-LLM v0.16 中引入的 User Buffer (-user_buffer) 功能,消除了通信內核中從本地到共享緩沖區的不必要內存拷貝。這種優化極大地提高了 inter-GPU 通信性能,特別是在大規模 Llama 模型中的 FP8 精度方面。

    由此產生的吞吐量增加直接轉化為更快的 token 生成和更低的延遲,提高了整體響應速度,同時降低了客戶的每個 token 的成本。此外,通過融合技術減少內核開銷并提高內存效率,資源利用率得到顯著優化。

    盡管有這些顯著的性能提升,但響應質量和準確性保持不變,確保優化不會降低模型的輸出完整性。

    這些成果背后的創新由 NVIDIA TensorRT-LLM 提供支持,可供整個開發者社區使用。開發者可以利用相同的優化來實現更快、更經濟高效的 AI 推理,從而實現響應速度更快、可擴展的 AI 驅動產品,這些產品可隨時隨地部署在 NVIDIA 加速計算平臺上。

    在 Azure AI Foundry 上獲取經 NVIDIA 優化的 Llama 模型的性能

    Microsoft 和 NVIDIA 的這種合作將 Microsoft 在云基礎設施方面的專業知識與 NVIDIA 在 AI 和性能優化方面的領導地位相結合,充分體現了雙方的卓越合作。在 Azure AI Foundry 上試用 Llama 模型 API ,親身體驗這些性能提升。

    對于喜歡在管理基礎架構時自定義和部署自己的模型的開發者,Azure 提供了利用 NVIDIA 加速計算的靈活選項。您可以使用 NVIDIA TensorRT-LLM 在 Azure VM 或 Azure Kubernetes Service (AKS) 上部署模型,以獲得類似的性能提升,同時保持對基礎設施和部署管道的控制。

    此外,Azure Marketplace 上提供的 NVIDIA AI Enterprise 將 TensorRT-LLM 作為其全面的 AI 工具和框架套件的一部分,為生產部署提供企業級支持和優化。

    在 NVIDIA GTC 2025 上,Microsoft 和 NVIDIA 還 宣布 將 NVIDIA NIM 與 Azure AI Foundry 集成。雖然 TensorRT-LLM 使模型構建器能夠在 Azure 上自定義、微調和優化其模型的性能,但 NVIDIA NIM 是一套易于使用的微服務,可為 AI 應用開發者提供預先優化的 AI 模型和微服務,并提供企業級支持。

    無論您是選擇 Azure AI Foundry 的全托管 MaaS 產品,還是在 Azure AI Foundry 中自行部署模型,全棧 NVIDIA 加速計算平臺都能幫助您構建更高效、響應更靈敏的 AI 驅動應用。

    0

    標簽

    人人超碰97caoporen国产