NVIDIA 宣布 TensorRT 8 個斜切 BERT - 大推斷下降到 1 毫秒

今天， NVIDIA 發布了 TensorRT 8 . 0 ，通過新的優化將 BERT 的大推理延遲降低到 1 . 2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識的訓練，并通過支持稀疏性，這是引進安培 GPU 的顯著更高的性能。

TensorRT 是一個用于高性能深度學習推理的 SDK ，包括推理優化器和運行時，提供低延遲和高吞吐量。 TensorRT 用于醫療、汽車、制造、互聯網/電信服務、金融服務、能源等行業，下載量近 250 萬次。

有幾種新的基于 transformer 模型被用于會話人工智能。 TensorRT 中的新的廣義優化可以加速所有這些模型，將推理時間減少到 TensorRT 7 的一半。

此版本的亮點包括：

BERT 在 1 . 2 毫秒內進行推斷，并進行了新的 transformer 優化
使用量化感知訓練，以 INT8 精度實現與 FP32 相當的準確性
引入稀疏性支持對安培 GPU 的快速推理

您可以進在此處進一步了解稀疏性。

微信是中國最大的社交媒體平臺之一，它使用 TensorRT 加速搜索，每月服務 5 億用戶。

“我們已經實現了基于 TensorRT – 和 -INT8 QAT 的模型推理加速，以加速微信搜索的核心任務，如查詢理解和結果排名。我們用 GPU + TensorRT 解決方案突破了 NLP 模型復雜度的傳統限制， BERT / Transformer 可以完全集成到我們的解決方案中。此外，我們還使用卓越的性能優化方法，顯著減少了分配的計算資源（ 70% ） – Huili/Raccoonliu/Dickzhu，微信搜索