??? ???? ??? AI ???? ???? ?? ??? ?? ??? ??? ??? ?????. ?? ??? ???? ??????? ???? ?? ??? ????? ??? ???? ???? ?? ???? ??? ???? ? ???? ?? ??? ????. NVIDIA ???? ??? ??? ????? ?, ???, ?????, ???? ? ?? ?? ??? ?? ??? ?? ???? ?? ??? ?????.
NVIDIA? ??? ?? ???? ? ???? ???? ?? ??? ??? ?? ?????? NVIDIA TensorRT Model Optimizer? ?? ?? ???? ???? ????. ??? ???? ?? ???? ??? ?? ??? ? ???? ???? ?? NVIDIA TensorRT-LLM ?? ????? ?? ?????? ? ?? ??? ?? ??? ? ????? ???? ? ????.
NVIDIA TensorRT ?????? ??? ??? NVIDIA TensorRT Model Optimizer(Model Optimizer??? ?)? NVIDIA Hopper, NVIDIA Ampere? NVIDIA Ada Lovelace?? ?? ?????? ??? ? ????.
Model Optimizer? PyTorch ? ONNX ??? ?? ?????? ???? ?????? ?????. ??? ???? ?????? TensorRT-LLM ?? TensorRT? ???? ??? ? ??? ?? ?? ?? ?? ?????? ? ??? ?????. Model Optimizer Python API? ???? ???? ??? ?? ??? ??? ???? TensorRT? ?? ??? ? ???? ???? ???? ??? ???? ? ????.
NVIDIA TensorRT Model Optimizer? 2024? 5? 8?? ?????? ?? ???? ? ?????? NVIDIA PyPI ??? ??? ??? ? ????. GitHub?? NVIDIA/TensorRT-Model-Optimizer ? ???? ?? ????? ???? ??? ??? ???? ?????.
??? ??
???? ? ???(PTQ)? ??? ?? ??? ??? ??? ????? ?? ?? ?? ?? ?? ?? ? ??? ????. ? ? ?? ??? ??? ??? ?? ??? ?? ?? ??? ????? Model Optimizer? INT8 SmoothQuant ? INT4 AWQ(??? ?? ??? ???)? ??? ?? ?? ????? ?????. TensorRT-LLM?? FP8 ?? ??? ? ?? ???(?: INT8 ?? INT4)? ???? ??, Model Optimizer? PTQ? ?? ???? ???? ?? ????.
?? 1? ?? Model Optimizer? PTQ? ?? ??? TensorRT-LLM ???? ?? ???? ????? LLM? ?? ?? ??? ???? ??? ? ??? ??????. INT4 AWQ? ???? Falcon 180B? ?? NVIDIA H200 GPU? ?????. ?? 1? ???? Llama 3 ???? Model Optimizer PTQ? ???? ??? ? ?? ?? ?? ??? ?????.

?? ??? ????? ?? ?? ?? ???????. ??? GPU ?? ??????.
???? ??? ?? ??? NVIDIA A100 Tensor ?? GPU??? ???? ???? ? ?? 1?? ?? ? ??? ?? ???? ??? ??? ?? ? ????. Model Optimizer? ???? 8??(INT8 ? FP8) ???? ? ???? ??? ?? ??? ??? ?? TensorRT? ?? ?? ????? ? Stable Diffusion XL NIM ? ???? ???????.
MLPerf Inference v4.0?? Model Optimizer? TensorRT? ?? ???? Stable Diffusion XL ??? ?? ??? ?? ?? ?? ???? ?? ??????. ? 8?? ??? ??? ??? ?? ??? AI ???? ?? ??? ????? ? ?? ??? ??? ??? ??? ? ?? ?????.
FP8 ? INT8 ??? ?? ?? ? ?? ??? ??? GitHub?? NVIDIA/TensorRT-Model-Optimizer? NVIDIA/TensorRT? ?????. ?? ?????? ??? ?? ??? ???? ?? ??? ?? ????? ??? ? ? ?? ????. FP8? ??, RTX 6000 Ada??? 1.45?, FP8 MHA? ?? L40S??? 1.35?? ?? ??? ??????. ? 1? INT8 ? FP8 ???? ???? ????? ?????.
??? ?? | INT8 ?? ??(ms) | FP8 ?? ??(ms) | ?? ??(INT8 vs FP16) | ?? ??(FP8 vs FP16) |
RTX 6000 Ada | 2,479 | 2,441 | 1.43? | 1.45? |
RTX 4090 | 2,058 | 2,161 | 1.20? | 1.14? |
L40S | 2,339 | 2,168 | 1.25? | 1.35? |
H100 80GB HBM3 | 1,209 | 1,216 | 1.08? | 1.07? |
??: Stable Diffusion XL 1.0 ?? ??. ??? ??? = 1024×1024, 30??. TensorRT v9.3. ?? ??=1

??? ???? ?? ????? ?? ??
??? ??? NVIDIA Blackwell ???? 4?? ?? ??? AI ?? ???? ???? ??? ??? ?? ????. Model Optimizer? ?? ??? ????? 4?? ??? ???? ? ???? ??? ???. 4?? ???? ??? ? ???? ? ???? ??? ??? ??? ??? ??? ?????.
? ??? ???? ?? Model Optimizer? ???? ???? ????? ???? 4??? ?? ??? ??? ??? ? ??? ??? ?? ????(QAT)? ?????. QAT? ???? ?? ???? ??? ???? ?????? ??? ??? ?? ?? ????? ?????? ?? ????? ???? ? ????? ??? ? ??? ?????.
Model Optimizer QAT ?????? NVIDIA NeMo, Megatron-LM ? Hugging Face Trainer API? ??? ??? ???? ?????? ????? ???????. ?? ?? ???? ??? ??????? NVIDIA ???? ??? ??? ? ????. NVIDIA Blackwell ???? ???? ?? QAT? ????? Hugging Face Trainer API? ???? INT4 QAT ??? ????.
NVIDIA? ??? ??? QAT? ?? ???? ?? ?? SFT(supervised fine-tuning) ????? ???? ???? QAT? ?? ????? PTQ?? ? ?? ??? ??? ? ?? ??? ??????. ?, QAT? ?? ???? ???? ??? ? ???, ??? ??? ??? ??? AI ??????? ??? ??? ???? ???? ?? 4??? ???????? ???? ??? ? ??? ?????.

???? ?? ??????? ?? ?????. ? ??????? INT4? ???? QAT? ?????. 4?? ??? NVIDIA Blackwell ???? ?? ??? ?? ?????.
???? ?? ?? ??
? ?? ??? ????? ??? ?? ?? ??????? ????. ?? ?? ? ?? ?? ??? ??? ?????. ???? ?? ????? 0?? ????? ???? ??? ??? ?? ?????. ? ?? ???? ?? ???? ??? ? ????.
Model Optimizer? ???? ? ???? Llama 2 70B? ?? FP8 ??? ?? ?? ?? 32?? 1.62??? ??? ? ?????. ???? NVIDIA Ampere ????? ??? ?? NVIDIA 2:4 ???? ??? NVIDIA H100 GPU 1?? ???????. ??? ??? ????? NVIDIA Ampere ???? ? NVIDIA TensorRT? ???? ???? ?? ?? ???? ?????.
MLPerf Inference v4.0?? TensorRT-LLM? ???? ? ??? Model Optimizer? ???? Llama 2 70B? 37% ?????. ?? ?? ??? KV ??? ?? H100 GPU? GPU ???? ?? ? ??? Tensor ?? ?? ??? 2?? 1? ?????. MLPerf? ? ?? ?? ???? Model Optimizer? ???? ??? ??? ???? MLPerf ?? ???? ??? Rouge ??? 99.9% ??? ??? ?????.
?? | ?? ?? | ?? ?? ?? (?? ??? ??? FP8 ?? ??? ??) |
???? Llama 2 70B | 32 | 1.62? |
64 | 1.52? | |
128 | 1.35? | |
896 | 1.30? |
FP8: ???? ?? ??? ?? TP=1, PP=1. ??? ??? ??? ??? ? ?? ??? TP=2? ??? ?
MLPerf ????? ??? ??? ?? ??? ??? ???? ?? ??? ???? ?? ???? ?? ??? ???? ?? ??????. Model Optimizer? FSDP? ??? ?? ?? ?? ?? ??? ???? ??? ?? ?? ??? ?? API? ?????. ?? 4? ?? ??? ?? SparseGPT? ???? ?? ??? ???? ? ??? ?????.

?? ??? ?? ??? API
???? ??? ??? ??? ? ???? ?? ??? ??? ??? ??? ? ??? ??? ?? ??? ??????. ??? ???? ???? ?? Model Optimizer? ???? ?? ??? ??? ?? ? ??? ?? ??? API? ?????. ?? 5? ?? ???? ???? ???? Model Optimizer ?? ?? API? ???? ??? ?????.

?? Model Optimizer? ???? ??? ??? ?? ?? ??? ???? ?? ?? ??? ???? ?? ?? ??? ??? ???? ? ? API? ?? ?? ?? ??? ??? ?? ?????.
????
?? NVIDIA TensorRT Model Optimizer? NVIDIA PyPI? nvidia-modelopt? ??? ? ????. ?? ???? ?? ?? ???? ? ???? ?????? GitHub? NVIDIA/TensorRT-Model-Optimizer? ?????. ??? ??? TensorRT Model Optimizer ???? ??????.
?? ?? ??
TensorRT Model Optimizer ??? ??? Asma Kuriparambil Thekkumpate, Kai Xu, Lucas Liebenwein, Zhiyu Cheng, Riyad Islam, Ajinkya Rasane, Jingyu Xin, Wei-Ming Chen, Shengliang Xu, Meng Xin, Ye Yu, Chen-han Yu, Keval Morabia, Asha Anoosheh ? James Shen? ??? ?????? ??? ??? ??? ??? ??? ????. (??? ??? ??? ???? ????)
?? ???
- GTC ??: TensorRT-LLM ? TensorRT?? ???? ?? ??? AI ?? ???
- GTC ??: ?? ?? ??? ? ????? ??????? ??? LLM ?? ??
- GTC ??: ??? ??? ?? TensorRT-LLM?? LLM ??? ? ????
- SDK: TensorRT
- SDK: TensorFlow-TensorRT
- SDK: Torch-TensorRT