使用 NVIDIA TensorRT 優化 T5 和 GPT-2 進行實時推理

Thu, 02 Dec 2021 05:46:00 +0000

這個 transformer 體系結構完全改變了（雙關語）自然語言處理（ NLP ）的領域。近年來，在 transformer 構建塊 BERT 、 GPT 和 T5 上構建了許多新穎的網絡體系結構。隨著品種的增加，這些型號的尺寸也迅速增加。雖然較大的神經語言模型通常會產生更好的結果，但將它們部署到生產環境中會帶來嚴重的挑戰，尤其是對于在線應用程序，在這些應用程序中，幾十毫秒的額外延遲可能會對用戶體驗產生顯著的負面影響。使用最新的 TensorRT 8.2 ，我們優化了 T5 和 GPT-2 模型，以實現實時推理。您可以將 T5 或 GPT-2 模型轉換為 TensorRT 引擎，然后將此引擎用作推理工作流中原始 PyTorch 模型的插件替換。與 PyTorch GPU 推理相比，此優化導致延遲減少 3-6 倍，與 PyTorch CPU 推理相比，延遲減少 9-21 倍。

Source

]]>

HuggingFace – NVIDIA 技術博客

使用 NVIDIA TensorRT 優化 T5 和 GPT-2 進行實時推理