NVIDIA TensorRT 10.0 升級可用性、性能和 AI 模型支持

NVIDIA 今天宣布最新發布的 NVIDIA TensorRT，一個用于高性能深度學習推理的 API 生態系統。該系統包括推理運行時和模型優化兩大組件，為生產應用程序提供低延遲和高吞吐量的優化解決方案。

這篇文章概述了此版本的關鍵功能和升級，包括更容易的安裝、更高的可用性、改進的性能以及更多本地支持的人工智能模型。

開發人員體驗升級

得益于更新的 Debian 和 RPM 元包，使用 TensorRT 10.0 變得更加容易上手。例如，使用>apt-get install tensorrt或pip install tensorrt命令便可為 C++ 或 Python 安裝所有相關的 TensorRT 庫。

此外，Debug Tensors 是一個新添加的 API，用于在構建時將張量標記為調試張量。這樣可以更容易地識別圖形中出現的任何問題。在運行時，每次寫入張量的值時，都會使用值、類型和維度調用一個用戶定義的回調函數。

TensorRT 10.0 在 ONNX 解析器中包含工具，用于在調用時識別不受支持的節點，以便在 parse 失敗時報告錯誤。如果節點位于 ONNX 本地函數中，則此錯誤報告將包含節點名稱、節點類型、故障原因以及本地函數堆棧。您可以使用 getNbErrors 函數來查詢這些錯誤的數量，并使用 getError 函數來獲取錯誤信息。

TensorRT10.0 也是 Windows 開發的一個重要升級。Windows 開發人員現在可以利用版本兼容性、硬件前向兼容性、輕量級引擎和 Stable Diffusion 管道改進。

功能升級

TensorRT 10.0 的性能亮點包括具有塊量化和改進的內存分配選項的 INT4 僅限權重量化（WoQ）。此外，重量剝離引擎和重量流等新功能簡化了將較大型號部署到較小 GPU 的過程。您不再需要將整個模型放入 GPU 內存中。

INT4 僅限權重量化

TensorRT10.0 支持使用 INT4 進行權重壓縮，INT4 與硬件體系結構無關。當內存帶寬限制 GEMM 操作性能或 GPU 內存不足時，WoQ 非常有用。在 WoQ 中，GEMM 權重被量化為 INT4 精度，而 GEMM 輸入數據和計算操作保持高精度。TensorRT-WoQ 內核從內存中讀取 4 位權重，并在高精度計算點積之前對其進行反量化。

塊量化實現了量化尺度中更高粒度的設置。它將張量沿單個維度劃分為固定大小的塊。為每個塊定義一個比例因子，塊中的所有元素共享一個公共比例因子。

運行時分配

createExecutionContext 函數接受指定分配策略的參數 (kSTATIC, kON_PROFILE_CHANGE 和 kUSER_MANAGED），以確定執行上下文設備內存的大小。對于用戶管理的分配，即 kUSER_MANAGED，還需要使用額外的 API updateDeviceMemorySizeForShapes，以根據實際輸入形狀查詢所需的大小。

減重引擎

TensorRT 10.0 支持輕量化引擎，可以實現 99% 的引擎尺寸壓縮。引擎是通過重新裝配配重實現的，而不需要在運行時重建引擎。這可以使用新的 REFIT_IDENTICAL 旗幟，指示 TensorRT 構建器在假設引擎將以與構建時提供的重量相同的重量進行改裝的情況下進行優化。

在部署場景中，可以將此標志與kSTRIP_PLAN一起使用，以最小化計劃大小。例如，在計劃與包含權重的 ONNX 模型一起發貨時，TensorRT 只允許對恒定重量進行改裝，而不會影響構建者優化和生產與不可改裝引擎具有相同運行時性能的引擎的能力。然后，從序列化引擎中省略這些權重，從而生成一個小的計劃文件，該文件可以在運行時使用 ONNX 模型中的權重進行重新安裝。

此功能使您能夠在執行 ONNX 模型時，或在使用同一組權重構建多個引擎時，避免在 TensorRT 計劃中添加權重副本。Windows 支持數十個 RTX GeForce GPU，每個 GPU 都有專門的輕量級引擎。

重量流

TensorRT 可以被配置為在網絡執行期間將網絡的權重從主機內存流式傳輸到設備內存，而不是在引擎加載時將它們放在設備內存中。這使得權重大于可用 GPU 內存的模型能夠運行，但可能會顯著增加延遲。權重流在構建時和運行時都是一個可選擇的功能。請注意，只有強類型網絡才支持此功能。

NVIDIA TensorRT 模型優化器 0.11

TensorRT 10.0 還包括 NVIDIA TensorRT Model Optimizer，這是一個新的后訓練和訓練中循環模型優化的綜合庫。其中包括量化、稀疏性和蒸餾，以降低模型復雜性，使編譯器框架能夠優化深度學習模型的推理速度。

Model Optimizer 為部署到 TensorRT LLM 或 TensorRT 的 PyTorch 和 ONNX 模型模擬量化檢查點。Model Optimizer Python API 使模型優化技術能夠利用 TensorRT 中現有的運行時和編譯器優化來加速推理。

NVIDIA TensorRT 模型優化器是公共的，可以免費用作 NVIDIA PyPI 轉輪。如果您想了解更多信息，請參閱 NVIDIA TensorRT 模型優化器：加速生成人工智能推理性能，現已公開。

訓練后量化

訓練后量化（PTQ）是減少內存占用和加速推理的最流行的模型壓縮方法之一。雖然其他一些量化工具包僅支持 WoQ 或基本技術，但 Model Optimizer 提供了高級校準算法，包括 INT8 SmoothQuant 和 INT4 AWQ。此外，如果您正在使用 FP8 或更低的精度，例如 INT8 或 INT4，通過 TensorRT-LLM，您已經在幕后利用 Model Optimizer PTQ。

量化意識訓練

量化感知訓練（QAT）使您能夠在不影響準確性的情況下，用 4 位完全解鎖推理加速。通過在訓練過程中計算縮放因子，并將模擬的量化損失納入微調過程，QAT 使神經網絡對量化更有彈性。模型優化器 QAT 工作流程旨在與領先的培訓框架集成，包括 NVIDIA NeMo、Megatron-LM 和 Hugging FaceTransformer API，為開發人員提供了在各種框架中利用 NVIDIA 平臺功能的選項。

稀疏性

稀疏性技術通過選擇性地鼓勵模型參數中的零值來減小模型的大小，這些零值可以從存儲或計算中丟棄。在 MLPerf 推理 v4.0 中，TensorRT LLM 通過 Model Optimizer 訓練后的稀疏性，在 Llama 2 70B 的 FP8 量化基礎上進一步展示了 1.3 倍的加速性能，運行于 NVIDIA H100 上。

Nsight 深度學習設計器

TensorRT 10.0 還引入了對評測和引擎構建的支持，包括對 Nsight 深度學習設計器?2024.1 的早期訪問。Nsight 深度學習設計器是一個功能強大的集成開發環境，專門用于設計深度神經網絡（DNN）。

模型優化是速度和精度的仔細平衡。Nsight 深度學習設計器提供了網絡推理性能的可視化診斷，以幫助調整模型以滿足性能目標并使 GPU 資源飽和。

該工具還可對 TensorRT ONNX 模型進行目視檢查。您可以實時調整模型圖和單個運算符，以優化推理過程。

Nsight 深度學習設計器現已免費提供。了解更多信息并訪問最新版本 2024.1。

Screenshot of a TensorRT 10.0 model mapped in Nsight Deep Learning Designer. — *圖 1。* *Nsight 深度學習設計器 2024.1 可視化 TensorRT 10.0 模型，用于實時檢查和控制推理過程*

擴大了對人工智能模型的支持

NVIDIA TensorRT LLM 是一個用于優化 LLM 推理的開源庫。易于使用的 Python API 融合了 LLM 推理的最新進展，如 FP8 和 INT4 AWQ，且不損失準確性。TensorRT LLM 0.10 將于 5 月下旬推出，支持最新發布的人工智能模型，包括 Meta Llama 3、Google CodeGemma 和 Google RecurrentGemma，以及 Microsoft Phi-3。

此外，我們還增加了支持 FP8 的專家混合體（MoE）。在 C++ 運行時和 NVIDIA Triton 中，編碼器-解碼器模型可以利用空中批處理的后端。此外，TensorRT 10.0 中添加的減重引擎也可在 TensorRT LLM 中使用。

總結

該 NVIDIA TensorRT 10.0 版本引入了多項新功能，包括權重流、權重剝離引擎、INT4 量化和改進的內存分配。此外，它還提供了 Model Optimizer，這是一個綜合庫，用于在訓練后和訓練中循環中優化模型，以便部署到 TensorRT LLM 或 TensorRT。TensorRT LLC 繼續推進 LLM 特定的優化，涵蓋許多新的模型、功能和性能改進。

欲了解更多關于 TensorRT 的信息，請點擊這里。

NVIDIA TensorRT 10.0 升級可用性、性能和 AI 模型支持

開發人員體驗升級