這篇文章最初發表于 2019 年 8 月,已經更新為 NVIDIA TensorRT 8 . 0 。
大規模語言模型( LSLMs )如 BERT 、 GPT-2 和 XL-Net 為許多自然語言處理( NLP )任務帶來了令人興奮的精度飛躍。自 2018 年 10 月發布以來, BERT (來自變形金剛的雙向編碼器表示)及其眾多變體仍然是最流行的語言模型之一, 仍然提供最先進的準確性 。
BERT 為 NLP 任務提供了準確度上的飛躍,為許多行業的公司提供了高質量、基于語言的服務。為了在生產中使用該模型,您必須考慮延遲和準確性等因素,這些因素影響最終用戶對服務的滿意度。 BERT 由于其 12 / 24 層堆疊、多頭注意力網絡,需要在推理過程中進行重要計算。這對公司部署 ZVK7]作為實時應用的一部分提出了挑戰。
今天, NVIDIA 發布了 TensorRT 的第 8 版,在 NVIDIA A100 GPU 上, BERT-Large 的推理延遲降低到 1 . 2 毫秒,并對基于 transformer 網絡進行了新的優化。 TensorRT 中新的廣義優化方法可以加速所有這些模型,將推理時間減少到 TensorRT 7 的一半。
TensorRT 是一個用于高性能、深入學習推理的平臺,它包括一個優化程序和運行時,可以最大限度地減少延遲和提高生產中的吞吐量。使用 TensorRT ,您可以優化在所有主要框架中訓練的模型,以高精度校準較低的精度,并最終部署到生產中。
在這個 NVIDIA/TensorRT GitHub repo 中,所有用 BERT 實現這一性能的代碼都將作為開源發布,它是 BERT 編碼器的一個基本構建塊,因此您可以將這些優化應用于任何基于 BERT 的 NLP 任務。 BERT 應用于會話 AI 之外的一組擴展的語音和 NLP 應用程序,所有這些應用程序都可以利用這些優化。
問答( QA )或閱讀理解是測試模型理解上下文能力的一種流行方法。團隊 leaderboard 為他們提供的數據集和測試集跟蹤此任務的最佳執行者。在過去的幾年里,隨著學術界和企業的全球性貢獻, QA 能力得到了迅速的發展。
在本文中,我們將演示如何使用 Python 創建一個簡單的 QA 應用程序,該應用程序由今天發布的 TensorRT 優化的 BERT 代碼提供支持。該示例提供了一個 API 來輸入段落和問題,并返回由 BERT 模型生成的響應。
下面簡要回顧一下使用 TensorRT 對 BERT 執行訓練和推理的步驟。
BERT 訓練和推理管道
NLP 研究人員和開發人員面臨的一個主要問題是缺乏高質量的標記訓練數據。為了克服從零開始學習任務模型的問題, NLP 的突破使用了大量的未標記文本,并將 NLP 任務分為兩部分:
- 學習表達單詞的意義,它們之間的關系,即使用輔助任務和大量文本建立語言模型
- 通過使用一個相對較小的、特定于任務的、以有監督的方式訓練的網絡來擴充語言模型,從而將語言模型專門化為實際任務。
這兩個階段通常稱為預訓練和微調。這種范式允許使用預先訓練的語言模型來處理廣泛的任務,而不需要對模型架構進行任何特定于任務的更改。在本例中, BERT 提供了一個高質量的語言模型,該模型針對 QA 進行了微調,但適用于其他任務,如句子分類和情感分析。
您可以從在線提供的預訓練檢查點開始,也可以從您自己的定制語料庫上的預訓練 BERT 開始(圖 1 )。您還可以從檢查點初始化預訓練,然后繼續對自定義數據進行訓練。

使用自定義或特定領域的數據進行預訓練可能會產生有趣的結果,例如 BioBert 。然而,它是計算密集型的,需要一個大規模的并行計算基礎設施才能在合理的時間內完成。 GPU – 啟用的多節點訓練是此類場景的理想解決方案。有關 NVIDIA 開發人員如何在不到一小時的時間內培訓 BERT 的更多信息,請參閱 使用 GPU s 培訓 BERT 。
在微調步驟中,使用特定任務訓練數據訓練基于預訓練 BERT 語言模型的特定任務網絡。對于 QA ,這是(段落、問題、答案)三倍。與預訓練相比,微調的計算要求通常要低得多。
使用 QA 神經網絡進行推理:
- 通過將微調的權重和網絡定義傳遞給 TensorRT 生成器來創建 TensorRT 引擎。
- 使用此引擎啟動 TensorRT 運行時。
- 向 TensorRT 運行時提供一篇文章和一個問題,并接收網絡預測的答案作為輸出。
圖 2 顯示了整個工作流。

通過以下步驟設置環境以執行 BERT 推斷:
- 創建具有先決條件的 Docker 映像。
- 從微調的重量構建 TensorRT 引擎。
- 對給定的段落和問題進行推理。
我們使用腳本來執行這些步驟,您可以在 TensorRT BERT 樣本回購 中找到這些步驟。雖然我們描述了可以傳遞給每個腳本的幾個選項,但為了快速入門,您還可以運行以下代碼示例:
# Clone the TensorRT repository and navigate to BERT demo directory git clone --recursive https://github.com/NVIDIA/TensorRT && cd TensorRT ? # Create and launch the Docker image? # Here we assume the following:? #? - the os being ubuntu-18.04 (see below for other supported versions) #? - cuda version is 11.3.1 bash docker/build.sh --file docker/ubuntu-18.04.Dockerfile --tag tensorrt-ubuntu18.04-cuda11.3 --cuda 11.3.1 ? # Run the Docker container just created bash docker/launch.sh --tag tensorrt-ubuntu18.04-cuda11.3 --gpus all ? # cd into the BERT demo folder cd $TRT_OSSPATH/demo/BERT ? # Download the BERT model fine-tuned checkpoint bash scripts/download_model.sh # Build the TensorRT runtime engine. # To build an engine, use the builder.py script. mkdir -p engines && python3 builder.py -m models/fine-tuned/bert_tf_ckpt_large_qa_squad2_amp_128_v19.03.1/model.ckpt -o engines/bert_large_128.engine -b 1 -s 128 --fp16 -c models/fine-tuned/bert_tf_ckpt_large_qa_squad2_amp_128_v19.03.1
最后一個命令使用混合精度( --fp16
)和 -s 128
大隊 v2 FP16 序列長度 128 檢查點( -c models/fine-tuned/bert_tf_ckpt_large_qa_squad2_amp_128_v19.03.1
)構建最大批大小為 1 ( BERT )、序列長度為 128 ( -s 128
python3 inference.py -e engines/bert_large_128.engine -p "TensorRT is a high performance deep learning inference platform that delivers low latency and high throughput for apps such as recommenders, speech and image/video on NVIDIA GPUs. It includes parsers to import models, and plugins to support novel ops and layers before applying optimizations for inference. Today NVIDIA is open-sourcing parsers and plugins in TensorRT so that the deep learning community can customize and extend these components to take advantage of powerful TensorRT optimizations for your apps." -q "What is TensorRT?" -v models/fine-tuned/bert_tf_ckpt_large_qa_squad2_amp_128_v19.03.1/vocab.txt
Passage: TensorRT is a high performance deep learning inference platform that delivers low latency and high throughput for apps such as recommenders, speech and image/video on NVIDIA GPUs. It includes parsers to import models, and plugins to support novel ops and layers before applying optimizations for inference. Today NVIDIA is open-sourcing parsers and plugins in TensorRT so that the deep learning community can customize and extend these components to take advantage of powerful TensorRT optimizations for your apps.
Question: What is TensorRT? Answer: 'a high performance deep learning inference platform'
Question: What is included in TensorRT? Answer: 'parsers to import models, and plugins to support novel ops and layers before applying optimizations for inference'
該模型提供的答案基于所提供的文章的文本是準確的,樣本使用 FP16 精度與 TensorRT 進行推理。這有助于在 NVIDIA GPU s 的張量核上實現盡可能高的性能。在我們的測試中,我們測量了 TensorRT 的精確度,與 FP16 精度的框架內推理相當。
以下是腳本可用的選項, docker/build.sh
腳本使用 docker 文件夾中提供的 docker 文件構建 docker 映像。它安裝所有必需的包,具體取決于您選擇作為 docker 文件的操作系統。在本文中,我們使用了 ubuntu-18 . 04 ,但也提供了 ubuntu-16 . 04 和 ubuntu-20 . 04 的 dockerfiles 。
bash docker/build.sh --file docker/ubuntu-xx.04.Dockerfile --tag tensorrt-tag --cuda cuda_version
創建并運行環境后,下載 BERT 的微調權重。請注意,創建 TensorRT 引擎不需要預先訓練的權重(只需要微調的權重)。在微調權重的同時,使用相關的配置文件,該文件指定了注意頭數、層數等參數,以及 vocab . txt 文件,該文件包含從訓練過程中學習到的詞匯表;使用 download _ model . sh 腳本下載它們。作為此腳本的一部分,您可以指定要下載的 BERT 模型的微調權重集。命令行參數控制精確的 BERT 模型,以便稍后用于模型構建和推斷:
sh download_model.sh [tf|pyt] [base|large|megatron-large] [128|384] [v2|v1_1] [sparse] [int8-qat] tf | pyt tensorflow or pytorch version base | large | megatron-large - determine whether to download a BERT-base or BERT-large or megatron model to optimize 128 | 384 - determine whether to download a BERT model for sequence length 128 or 384 v2 | v1_1, fine-tuned on squad2 or squad1.1 sparse, download sparse version int8-qat, download int8 weights
# Running with default parameters
bash download_model.sh
# Running with custom parameters (BERT-large, FP32 fine-tuned weights, 128 sequence length)
sh download_model.sh large tf fp32 128
默認情況下,此腳本下載微調的 TensorFlow BERT -large ,精度為 FP16 ,序列長度為 128 。除了微調的模型外,還可以使用配置文件、枚舉模型參數和詞匯表文件將 BERT 模型輸出轉換為文本答案。
接下來,您可以構建 BERT 引擎并將其用于 QA 示例,即推理。腳本 builder.py
基于下載的 TensorRT 微調模型構建用于推理的 TensorRT 引擎。
python3 builder.py [-h] [-m CKPT] [-x ONNX] [-pt PYTORCH] -o OUTPUT ????????????????? [-b BATCH_SIZE] [-s SEQUENCE_LENGTH] -c CONFIG_DIR [-f] [-i] ????????????????? [-t] [-w WORKSPACE_SIZE] [-j SQUAD_JSON] [-v VOCAB_FILE] ????????????????? [-n CALIB_NUM] [-p CALIB_PATH] [-g] [-iln] [-imh] [-sp] ????????????????? [-tcf TIMING_CACHE_FILE]
??-h, --help? ? show this help message and exit ??-m CKPT, --ckpt CKPT? The checkpoint file basename, e.g.: basename(model.ckpt-766908.data-00000-of-00001) is model.ckpt-766908 (default: None) ??-x ONNX, --onnx ONNX? The ONNX model file path. (default: None) ??-pt PYTORCH, --pytorch PYTORCH ??? ??? ??? The PyTorch checkpoint file path. (default: None) ??-o OUTPUT, --output OUTPUT ??? ??? ??? The bert engine file, ex bert.engine (default: bert_base_384.engine) ??-b BATCH_SIZE, --batch-size BATCH_SIZE Batch size(s) to optimize for. The engine will be usable with any batch size below this, but may not be optimal for smaller sizes. Can be specified multiple times to optimize for more than one batch size.(default: []) ??-s SEQUENCE_LENGTH, --sequence-length SEQUENCE_LENGTH ??? ??? ??? Sequence length of the BERT model (default: []) ??-c CONFIG_DIR, --config-dir CONFIG_DIR The folder containing the bert_config.json, which can be downloaded e.g. from https://github.com/google-research/bert#pre-trained-models (default: None) ??-f, --fp16? ? Indicates that inference should be run in FP16 precision ??? ??? ??? (default: False) ??-i, --int8? ? Indicates that inference should be run in INT8 precision ??? ??? ??? (default: False) ??-t, --strict? Indicates that inference should be run in strict precision mode ??? ??? ??? (default: False) ??-w WORKSPACE_SIZE, --workspace-size WORKSPACE_SIZE Workspace size in MiB for ??? ??? ??? building the BERT engine (default: 1000) ??-j SQUAD_JSON, --squad-json SQUAD_JSON squad json dataset used for int8 calibration (default: squad/dev-v1.1.json) ??-v VOCAB_FILE, --vocab-file VOCAB_FILE? Path to file containing entire understandable vocab (default: ./pre-trained_model/uncased_L-24_H-1024_A-16/vocab.txt) ??-n CALIB_NUM, --calib-num CALIB_NUM ??? ??? ??? calibration batch numbers (default: 100) ??-p CALIB_PATH, --calib-path CALIB_PATH ??? ??? ??? calibration cache path (default: None) ??-g, --force-fc2-gemm? ??? ??? ??? Force use gemm to implement FC2 layer (default: False) ??-iln, --force-int8-skipln? Run skip layernorm with INT8 (FP32 or FP16 by default) inputs and output (default: False) ??-imh, --force-int8-multihead Run multi-head attention with INT8 (FP32 or FP16 by default) input and output (default: False) ??-sp, --sparse ? ? ??? Indicates that model is sparse (default: False) ??-tcf TIMING_CACHE_FILE, --timing-cache-file TIMING_CACHE_FILE? Path to tensorrt build timeing cache file, only available for tensorrt 8.0 and later (default: None)
python3 builder.py -m models/fine-tuned/bert_tf_ckpt_large_qa_squad2_amp_128_v19.03.1/model.ckpt -o engines/bert_large_128.engine -b 1 -s 128 --fp16 -c models/fine-tuned/bert_tf_ckpt_large_qa_squad2_amp_128_v19.03.1
現在您應該有一個 TensorRT 引擎 engines/bert_large_128.engine
,用于 QA 的 inference.py
在本文后面,我們將描述構建 TensorRT 引擎的過程。現在,您可以向 inference.py
- 段落和問題可以使用 –通道 和 –問題 標志作為命令行參數提供。
- 它們可以使用 – U 文件 和 –問題文件 標志從給定的文件傳入。
- 如果在執行過程中沒有給出這兩個標志,則在執行開始后,系統會提示您輸入段落和問題。
以下是 inference.py
Usage: inference.py [-h] [-e ENGINE] [-b BATCH_SIZE] ??????????????????? [-p [PASSAGE [PASSAGE ...]]] [-pf PASSAGE_FILE] ??????????????????? [-q [QUESTION [QUESTION ...]]] [-qf QUESTION_FILE] ??????????????????? [-sq SQUAD_JSON] [-o OUTPUT_PREDICTION_FILE] ??????????????????? [-v VOCAB_FILE] [-s SEQUENCE_LENGTH] ??????????????????? [--max-query-length MAX_QUERY_LENGTH] ??????????????????? [--max-answer-length MAX_ANSWER_LENGTH] ??????????????????? [--n-best-size N_BEST_SIZE] [--doc-stride DOC_STRIDE]
這個腳本使用一個預先構建的 TensorRT BERT QA 引擎來根據提供的文章回答問題。
-h, --help? ? ? ? ??? show this help message and exit ??-e ENGINE, --engine ENGINE ??????????????????????? Path to BERT TensorRT engine ??-b BATCH_SIZE, --batch-size BATCH_SIZE ??????????????????????? Batch size for inference. ??-p [PASSAGE [PASSAGE ...]], --passage [PASSAGE [PASSAGE ...]] ??????????????????????? Text for paragraph/passage for BERT QA ??-pf PASSAGE_FILE, --passage-file PASSAGE_FILE ??????????????????????? File containing input passage ??-q [QUESTION [QUESTION ...]], --question [QUESTION [QUESTION ...]] ??????????????????????? Text for query/question for BERT QA ??-qf QUESTION_FILE, --question-file QUESTION_FILE ??????????????????????? File containing input question ??-sq SQUAD_JSON, --squad-json SQUAD_JSON ??????????????????????? SQuAD json file ??-o OUTPUT_PREDICTION_FILE, --output-prediction-file OUTPUT_PREDICTION_FILE ??????????????????????? Output prediction file for SQuAD evaluation ??-v VOCAB_FILE, --vocab-file VOCAB_FILE ??????????????????????? Path to file containing entire understandable vocab ??-s SEQUENCE_LENGTH, --sequence-length SEQUENCE_LENGTH ??????????????????????? The sequence length to use. Defaults to 128 ??--max-query-length MAX_QUERY_LENGTH ??????????????????????? The maximum length of a query in number of tokens. ??????????????????????? Queries longer than this will be truncated ??--max-answer-length MAX_ANSWER_LENGTH ??????????????????????? The maximum length of an answer that can be generated ??--n-best-size N_BEST_SIZE ??????????????????????? Total number of n-best predictions to generate in the ??????????????????????? nbest_predictions.json output file ??--doc-stride DOC_STRIDE ??????????????????????? When splitting up a long document into chunks, what ??????????????????????? stride to take between chunks
BERT 與 TensorRT 的推理
有關推理過程的逐步描述和演練,請參見示例文件夾中的 Python script inference . py 和詳細的 Jupyter notebook inference . ipynb 。下面是使用 TensorRT 執行推理的幾個關鍵參數和概念。
BERT 或更具體地說,編碼器層使用以下參數來控制其操作:
- 批量大小
- 序列長度
- 注意頭數
這些參數的值取決于所選的 BERT 模型,用于設置 TensorRT 計劃文件(執行引擎)的配置參數。
對于每個編碼器,還指定隱藏層的數量和注意頭的大小。您還可以從 TensorFlow 檢查點文件中讀取所有早期參數。
由于我們正在使用的 BERT 模型已經針對 SQuAD 數據集上 QA 的下游任務進行了微調,因此網絡的輸出(即輸出完全連接層)是一段文本,其中答案出現在文章中,在示例中稱為 h ? U 輸出。生成 TensorRT 引擎之后,您可以序列化它,稍后在 TensorRT 運行時使用它。
在推理過程中,異步執行從 CPU 到 GPU 的內存復制和反向操作,分別將張量放入和移出 GPU 內存。異步內存復制操作通過與設備和主機之間的內存復制操作重疊計算來隱藏內存傳輸的延遲。圖 3 顯示了異步內存拷貝和內核執行。

BERT 模型(圖 3 )的輸入包括:
:帶有段落標記 ID 的張量與用作推理輸入的問題串聯在一起segment_ids
輸出( start_logits
和 end_logits
基準測試 BERT 推理性能
BERT 可以應用于在線和離線用例。在線 NLP 應用程序,如會話人工智能,在推理過程中占用了緊張的延遲預算。為了響應單個用戶的查詢,需要按順序執行多個模型。當用作服務時,客戶體驗的總時間包括計算時間以及輸入和輸出網絡延遲。時間越長,性能越差,客戶體驗越差。
雖然單個模型的準確延遲可能因應用程序而異,但一些實時應用程序需要在 10 毫秒內執行語言模型。
使用 NVIDIA 安培架構 A100 GPU , BERT – 用 TensorRT 8 優化的大可以在 1 . 2ms 內對 QA 任務執行推斷,類似于批大小為 1 、序列長度為 128 的團隊中可用的任務。
使用 TensorRT 優化樣本,您可以在 10ms 延遲預算內為 BERT -base 或 BERT -large 執行不同的批處理大小。例如,在 TensorRT 8 的 A30 上,序列長度= 384 批大小= 1 的 BERT 大型模型的推斷延遲為 3 . 62ms 。同樣的模型,序列長度= 384 ,在 CPU 平臺上高度優化代碼(**),批量大小= 1 是 76ms 。

性能度量在將張量作為輸入傳遞和將 logit 作為輸出收集之間,在 QA 任務上執行網絡的純計算延遲時間。您可以在 repo 中的 scripts / inference \ u benchmark . sh 腳本中找到用于對示例進行基準測試的代碼。
NVIDIA 正在發布 TensorRT 8 . 0 ,這使得在 A30 GPU s 上以 0 . 74ms 的時間執行 BERT 推斷成為可能。 BERT 上的基準測試推斷代碼在 TensorRT 開源 repo 中作為示例提供。
本文概述了如何使用 TensorRT 示例和性能結果。我們進一步描述了如何將 BERT 示例作為簡單應用程序和 Jupyter 筆記本的一部分來使用的工作流,您可以在其中傳遞一個段落并提出與之相關的問題。新的優化和可實現的性能使 BERT 在生產中用于延遲預算緊張的應用程序(如會話人工智能)變得切實可行。
我們一直在尋找新的想法,新的例子和應用程序來分享。您使用 BERT 的 NLP 應用程序有哪些?您希望將來從我們這里看到哪些示例?
如果您對 TensorRT 示例 repo 有疑問,請檢查 NVIDIA TensorRT 開發者論壇 以查看 TensorRT 社區的其他成員是否首先有解決方案。 NVIDIA 注冊的開發人員程序成員也可以在 http://www.open-lab.net/nvidia-developer-program 上提交 bug 。
- CPU – 僅規格:金色 6240 @ 2 . 60GHz3 . 9GHz Turbo ( Cascade Lake ) HT 關,單節點,單插座, CPU 線程數= 18 ,數據= Real ,批量= 1 ;序列長度= 128 ; nireq = 1 ;精度= FP32 ;數據=真實; OpenVINO 2019 R2 系列
- GPU – 服務器規范: Gold6140 @ 2GHz3 . 7GHz Turbo ( Skylake ) HT On ,單節點,雙插槽, CPU 線程數= 72 , T4 16GB ,驅動程序版本 418 . 67 ( r418 _ 00 ), BERT – 基,批量大小= 1 ;頭數= 12 ,每頭尺寸= 64 ; 12 層;序列長度= 128 ;精度= FP16 ; XLA =是;數據=真實 TensorRT 5 . 1 條
- CPU – 僅規格:鉑金 8380H @ 2 . 90GHz 至 4 . 3 GHz Turbo ( Cooper Lake ) HT Off ,單節點,單插座, CPU 線程數= 28 , BERT – 大,數據= Real ,批量= 1 ;序列長度= 384 ; nireq = 1 ;精度= INT8 ;數據=真實; OpenVINO 2021 R3
- GPU – 服務器規范: AMD EPYC7742 @ 2 . 25GHz3 . 4GHz Turbo (羅馬) HT 關閉,單節點, CPU 線程數= 64 , A30 ( GA100 ) 1 * 24258 MiB 1 * 56 SM ,驅動程序版本 470 . 29 ( R47000 ), BERT – 大,批量大小= 1 ;序列長度= 384 ;精度= INT8 TensorRT 8 . 0 版