• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    人工智能/深度學習

    NVIDIA 宣布 TensorRT 8 個斜切 BERT – 大推斷下降到 1 毫秒

    今天, NVIDIA 發布了 TensorRT 8 . 0 ,通過新的優化將 BERT 的大推理延遲降低到 1 . 2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識的訓練,并通過支持稀疏性,這是引進安培 GPU 的顯著更高的性能。

    TensorRT 是一個用于高性能深度學習推理的 SDK ,包括推理優化器和運行時,提供低延遲和高吞吐量。 TensorRT 用于醫療、汽車、制造、互聯網/電信服務、金融服務、能源等行業,下載量近 250 萬次。

    有幾種新的基于 transformer 模型被用于會話人工智能。 TensorRT 中的新的廣義優化可以加速所有這些模型,將推理時間減少到 TensorRT 7 的一半。

    此版本的亮點包括:

    • BERT 在 1 . 2 毫秒內進行推斷,并進行了新的 transformer 優化
    • 使用量化感知訓練,以 INT8 精度實現與 FP32 相當的準確性
    • 引入稀疏性支持對安培 GPU 的快速推理

    您可以進在此處進一步了解稀疏性。

    微信是中國最大的社交媒體平臺之一,它使用 TensorRT 加速搜索,每月服務 5 億用戶。

    “我們已經實現了基于 TensorRT – 和 -INT8 QAT 的模型推理加速,以加速微信搜索的核心任務,如查詢理解和結果排名。我們用 GPU + TensorRT 解決方案突破了 NLP 模型復雜度的傳統限制, BERT / Transformer 可以完全集成到我們的解決方案中。此外,我們還使用卓越的性能優化方法,顯著減少了分配的計算資源( 70% ) – Huili/Raccoonliu/Dickzhu,微信搜索

    圖 1 .所有垂直行業的領先采用者。

    NVIDIA TensorRT 免費提供給 NVIDIA 開發者計劃的成員。要了解更多信息,請訪問 TensorRT 產品頁。

    要進一步了解 TensorRT 8 及其功能:

    按照這些 GTC 課程來熟悉技術:

    ?

    0

    標簽

    人人超碰97caoporen国产