NVIDIA? ?? ??? ? ?? ??? ?? API ?????? NVIDIA TensorRT? ?? ???? ??????. TensorRT?? ???? ??????? ?? ??? ?? ???? ?? ?? ??? ? ?? ???? ?????.
? ?????? ??? ??, ??? ???, ??? ??, ????? ???? ?? AI ??? ???? ?? ???? ?? ?? ? ?????? ???? ?????.
??? ?? ?????
Debian ? RPM ?????? ?????? TensorRT 10.0? ?? ???? ??? ? ????. ?? ?? >apt-get install tensorrt
?? pip install tensorrt? ???? C++ ?? Python? ?? ?? ?? TensorRT ?????? ??? ? ????.
?? ??? ??? ??? ? ??? ??? ??? ???? ?? ?? ??? API???. ? API? ???? ????? ???? ?? ??? ? ?? ??? ? ????. ????? ??? ?? ??? ??? ?, ??, ??? ?? ??? ?? ?? ??? ?????.
TensorRT 10.0?? ?? ??? ??? ?? ???? ?? ??? ???? ??? ONNX parse
? ???? ????. ? ?? ???? ?? ??, ?? ??, ?? ??, ??? ONNX ?? ??? ?? ?? ?? ?? ??? ?????. getNbErrors
??? ???? ??? ??? ?? ???? getError
??? ???? ?? ??? ?? ??? ??? ? ????.
TensorRT 10.0? Windows ??? ?? ?? ???????? ???. Windows ???? ?? ?? ???, ???? ??? ???, ???? ??, Stable Diffusion ????? ?? ??? ??? ? ????.
?? ?????
TensorRT 10.0 ?? ??????? ?? ??? ? ??? ??? ?? ??? ?? INT4 WoQ(Weight-Only Quantization)? ?????. ?? ???? ?? ? ??? ????? ?? ??? ??? ? ? ??? ? ?? GPU? ???? ????? ???? ???. ??? ?? ??? GPU ???? ?? ??? ????.
INT4 ??? ?? ???(Weight-Only Quantization)
TensorRT 10.0? ???? ????? ???? ?? INT4? ??? ??? ??? ?????. WoQ? ??? ???? GEMM ?? ??? ????? GPU ???? ??? ??? ?????. WoQ?? GEMM ???? INT4 ???? ????? ?? GEMM ?? ??? ? ??? ??? ?? ???? ?????. TensorRT WoQ ??? ?? ???? ??? ???? ?? ????? 4?? ???? ?? ???????.
?? ???? ??? ????? ? ?? ??? ??? ?????. ?? ??? ?? ??? ?? ?? ???? ????. ??? ??? ? ??? ???? ??? ?? ??? ?? ??? ??? ?????.
??? ??
createExecutionContext
? ?? ???? ???? ???? ?? ??(kSTATIC
, kON_PROFILE_CHANGE
, kUSER_MANAGED
)? ???? ??? ?????. ??? ?? ??? kUSER_MANAGED
? ??, ?? ?? ??? ???? ??? ??? ???? ?? ???? API updateDeviceMemorySizeForShapes
? ?????.?
???? ??
TensorRT 10.0? ???? ??? ???? ?? ??? 99% ??? ? ????. ??? ???? ??? ????? ?? ???? ?? ?????. ?? ??? REFIT_IDENTICAL
???? ???? ??? ? ????. REFIT_IDENTICAL
? ??? ?? ? ??? ?? ??? ???? ?? ????? ???? TensorRT ??? ?????? ?????.?
? ???? kSTRIP_PLAN
? ?? ???? ??? ???? ???? ONNX ??? ?? ???? ?? ???? ??? ?? ??? ??????. TensorRT? ?? ???? ???? ???? ????, ?? ???? ???? ??? ??? ??? ???? ??? ????? ???? ??? ??? ??? ??? ????. ?? ?? ???? ???? ??? ???? ???? ONNX ??? ???? ???? ???? ???? ? ?? ?? ?? ??? ?????.?
? ??? ???? ONNX ??? ??? ? ?? ??? ??? ??? ??? ?? ???? TensorRT ???? ?? ??? ??? ??? ? ????. Windows? ?? ?? RTX GeForce GPU? ????, ? GPU?? ???? ?? ??? ????.
??? ????
TensorRT? ???? ???? ?? ?? ??? ???? ???? ???? ?? ???? ?? ? ??? ????? ???? ???? ??????? ??? ? ????. ?? ?? ?? ??? GPU ????? ???? ? ??? ??? ? ??? ?? ??? ?? ??? ? ????. ??? ????? ?? ?? ? ????? ?? ??? ? ?? ?????. ? ??? ??? ??? ??????? ?????.
NVIDIA TensorRT Model Optimizer 0.11
TensorRT 10.0?? ?? ?? ?? ? ???? ?? ?? ???? ??? ???? ?????? NVIDIA TensorRT Model Optimizer? ???? ????. ???? ?? ???? ??? ?? ???, ???, ??? ???? ???? ?????? ? ?? ??? ?? ??? ???? ? ????.
Model Optimizer? TensorRT-LLM ?? TensorRT? ???? PyTorch ? ONNX ??? ???? ?????? ????????. Model Optimizer Python API? ???? ?? ??? ??? TensorRT? ?? ??? ? ???? ???? ???? ??? ??? ? ????.
NVIDIA TensorRT Model Optimizer? ?????? NVIDIA PyPI ??? ??? ??? ? ????. ??? ??? ?? ????? ??? ? ?? NVIDIA TensorRT Model Optimizer? ??? AI ?? ?? ???? ?????.
?? ?? ???
?? ?? ???(PTQ)? ??? ?? ??? ??? ??? ???? ?? ?? ???? ? ??? ????. ? ? ?? ??? ??? WoQ ?? ?? ??? ?????, Model Optimizer? INT8 SmoothQuant ? INT4 AWQ ?? ?? ?? ????? ?????. TensorRT-LLM?? FP8 ?? ??? ? ?? ???(?: INT8 ?? INT4)? ???? ??, Model Optimizer PTQ? ?? ???? ???? ?? ????.
??? ?? ??
??? ?? ??(QAT)? ???? ???? ???? ???? 4??? ?? ??? ??? ??? ? ????. QAT? ?? ?? ???? ??? ???? ?????? ??? ??? ?? ?? ????? ?????? ?? ????? ???? ? ????? ??? ? ??? ?????. Model Optimizer QAT ?????? NVIDIA NeMo, Megatron-LM, Hugging Face Trainer API ? ??? ?? ?????? ????? ???? ????? ??? ??????? NVIDIA ???? ??? ??? ? ?? ??? ?????.
???
???? ?? ????? 0?? ????? ???? ??? ??? ?????. ? ?? ???? ?? ???? ??? ? ????. MLPerf Inference v4.0?? TensorRT-LLM? Model Optimizer? ?? ?? ???? ???? ???? NVIDIA H100? Llama 2 70B? ?? FP8 ??? ??? 1.3?? ?? ??? ???????.
Nsight Deep Learning Designer
TensorRT 10.0? Nsight Deep Learning Designer 2024.1 ?? ???? ?? ????? ? ?? ??? ?????. Nsight Deep Learning Designer? ? ?? ????(DNN) ??? ?? ?? ?? ?????.
?? ???? ??? ???? ??? ????. Nsight Deep Learning Designer? ???? ?? ??? ????? ???? ?? ??? ???? GPU ???? ?????? ??? ???? ? ??? ???.
? ??? ?? TensorRT ONNX ??? ????? ?????. ?? ???? ?? ???? ????? ???? ?? ????? ???? ? ????.
Nsight Deep Learning Designer? ??? ?????. ??? ???? 2024.1 ??? ??????

AI ??? ?? ?? ??
NVIDIA TensorRT-LLM? LLM ??? ????? ?? ?? ?? ????????. ???? ?? Python API? ??? ?? ?? FP8 ? INT4 AWQ? ?? LLM ??? ?? ??? ?????. 5? ?? ??? ??? TensorRT-LLM 0.10? Meta Llama 3, Google CodeGemma, Google RecurrentGemma, Microsoft Phi-3 ? ?? ??? AI ??? ?????.
FP8 ?? MoE(Mixture of Experts)? ???????. ???-??? ??? ????? ?? ??? ?? C++ ??? ? NVIDIA Triton ????? ?????. TensorRT 10.0? ??? ???? ??? TensorRT-LLM??? ??? ? ????.
??
NVIDIA TensorRT 10.0 ???? ??? ????, ???? ??, INT4 ???, ??? ??? ??? ??? ?? ??? ??? ?????. ?? TensorRT-LLM ?? TensorRT? ???? ?? ?? ? ???? ?? ?? ???? ???? ?????? Model Optimizer? ???? ????. TensorRT-LLM? ?? ??? ??, ?? ? ?? ??? ?? LLM? ???? ???? ????.
?? ???
- GTC ??: TensorRT-LLM? ?? LLM ?? ???
- GTC ??: ?? ?? ??? ? ????? ??????? ??? LLM ?? ??
- NGC ????: TensorRT
- SDK: TensorFlow-TensorRT
- SDK: TensorRT
- SDK: Torch-TensorRT