HuggingFace – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Tue, 07 Dec 2021 05:52:25 +0000
zh-CN
hourly
1
196178272 -
使用 NVIDIA TensorRT 優化 T5 和 GPT-2 進行實時推理
http://www.open-lab.net/zh-cn/blog/optimizing-t5-and-gpt-2-for-real-time-inference-with-tensorrt/
Thu, 02 Dec 2021 05:46:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=2526
Continued]]>
這個 transformer 體系結構 完全改變了(雙關語)自然語言處理( NLP )的領域。近年來,在 transformer 構建塊 BERT 、 GPT 和 T5 上構建了許多新穎的網絡體系結構。隨著品種的增加,這些型號的尺寸也迅速增加。 雖然較大的神經語言模型通常會產生更好的結果,但將它們部署到生產環境中會帶來嚴重的挑戰,尤其是對于在線應用程序,在這些應用程序中,幾十毫秒的額外延遲可能會對用戶體驗產生顯著的負面影響。 使用最新的 TensorRT 8.2 ,我們優化了 T5 和 GPT-2 模型,以實現實時推理。您可以將 T5 或 GPT-2 模型轉換為 TensorRT 引擎,然后將此引擎用作推理工作流中原始 PyTorch 模型的插件替換。與 PyTorch GPU 推理相比,此優化導致延遲減少 3-6 倍,與 PyTorch CPU 推理相比,延遲減少 9-21 倍。
Source
]]>
2526
人人超碰97caoporen国产