NVIDIA TensorRT 模型優化器 v0.15 提高推理性能擴展模型支持能力

Thu, 15 Aug 2024 08:58:32 +0000

NVIDIA 宣布推出新版 v0.15 NVIDIA TensorRT 模型優化器，這是一種先進的模型優化技術量化工具包，包含量化、稀疏和剪枝。這些技術可降低模型復雜性，使 NVIDIA TensorRT-LLM 和 NVIDIA TensorRT 等下游推理框架能夠更有效地優化生成式 AI 模型的推理速度。本文將概述近期 TensorRT Model Optimizer 版本的一些主要特性和升級，包括緩存擴散、使用 NVIDIA NeMo 的全新量化感知訓練工作流程以及 QLoRA 支持。以前，TensorRT Model Optimizer（簡稱‘Model Optimizer’）利用其 8 位訓練后量化（PTQ）技術強效助力 NVIDIA TensorRT，為 Stable Diffusion XL 的性能設立了標桿。為進一步普及擴散模型的快速推理，

Source

]]>

NVIDIA TensorRT 通過 8 位預訓練量化將 Stable Diffusion 的速度提升近 2 倍

Thu, 07 Mar 2024 08:28:49 +0000

在生成式 AI 的動態領域，擴散模型脫穎而出，成為使用文本提示生成高質量圖像的功能強大的架構 .Stable Diffusion 等模型徹底改變了創意應用。但是，由于需要執行迭代降噪步驟，擴散模型的推理過程非常計算密集。這對致力于實現最佳端到端推理速度的公司和開發者帶來了嚴峻挑戰。首先，NVIDIA TensorRT 9.2.0 引入了一款出色的量化工具包，支持FP8 或 INT8 預訓練量化 (PTQ)，顯著提升了在 NVIDIA 硬件上部署擴散模型的速度，同時保持圖像質量。TensorRT 的 8 位量化功能已成為眾多生成式 AI 公司的首選解決方案，特別是對于領先的創意視頻編輯應用程序提供商。在本文中，我們討論了 TensorRT 與 Stable Diffusion XL 的性能。我們介紹了支持 TensorRT 成為低延遲 Stable Diffusion…

Source

]]>

Justin Xin – NVIDIA 技術博客

NVIDIA TensorRT 模型優化器 v0.15 提高推理性能擴展模型支持能力

NVIDIA TensorRT 通過 8 位預訓練量化將 Stable Diffusion 的速度提升近 2 倍