NVIDIA? ?? NVIDIA TensorRT-LLM? ???-??? ?? ????? ?????? ??????. TensorRT-LLM? ??? ?? ??? ?? ????? ?? ??? ????? ?? ?? ????????.
- Llama 3.1? ?? ??? ?? ??
- Mixtral? ?? ?? ??? ??(MoE)
- Mamba? ?? ??? ?? ?? ??(SSM)
- ??-?? ? ??-?? ?? ??? ?? ?? ?? ??
???-??? ?? ??? ??? TensorRT-LLM? ??? ?? ????, NVIDIA GPU?? ?? ???? ??? AI ?? ??? ?? ??? ???? ??? ?????.
TensorRT-LLM? NVIDIA TensorRT ??? ????? ?????. ???? LLM ?? ??? ?? ??? ??? ????? ??? ??? ?? ?? ??? ??? ???? ????. ??, GPU?? ???? LLM ?? ??? ?? ??? ?? ?? API? ??? ??? ? ??? ??? ?? GPU/?? ?? ?? ?????? ???? ????.
T5, mT5, Flan-T5, BART, mBART, FairSeq NMT, UL2, Flan-UL2 ? ???-??? ?? ??? ??? ???? ???? ?? TensorRT-LLM? ?? ? ?? ?? ??? ????? ???-??? ??? ?? ???? ??? ?????. ??, ? ???? ?? ??? ?? ????(TP), ????? ????(PP), ??? ? ? ??? ????? ??? ?? ?? GPU/?? ?? ??? ?????.
??? ??, ??? ???, ?? GPU ??? ??? ? ?? ??? ????, ???-??? ?? ??? ?????.
???-??? ????? ?? ????? ??
???? ??? ??? ???-??? ??? ??? ?? ??? ???? ?? ??? ??? ??? ????. ? ??? ?? ??? ??(????? ? ?? ??)? ??? ???, ? ?? ??? ??? ? ?? ????, ? ??? ??? ??? ?????. ? ?? ??? ?? ????? ????, ?-?(KV) ?? ?? ? ?? ??? ?? ? ??? ?? ??? ?? ?? ?? ???? ?? ???? ?????.
????? ??(IFB, ?? ????? ?)? ???-??? ????? ?? KV ?? ??? ???? ?? ? ?? ?? ?? ??? ????:
- ??/?? ?? ??? ?? ??? ???? ??? ??(???, ??? ?? ?? ??)? ?? ??? ??.
- ???? ?? ??? ??? ???? ??? ?? ??? ???? ??? ??? ??? ?? ?? ??? KV ?? ??.
- LLM ?? ???? ????? ???? ??? ??. ??? ??? ????? ???? ??? ?, ? ??? ??? ?? ??? ???? ????? ???? ???? ???.
- ???? ???? ?? ??? ?? ??. ???? ???? ??? ?? ??? ?? ? ?? ??? ? ??? ??? ????? ?????? ????? ???.
TensorRT-LLM ???-??? ??? ?? ??? ??? ??? ?? NVIDIA Triton TensorRT-LLM ?????? ?????. NVIDIA Triton Inference Server? AI ??? ????? ?? ?? ?? ??? ????????.
Triton TensorRT-LLM ???? ???? ???-??? ??? ??? ??? ???? ? ?? ??? ??? ??? ? ????.
- ?????? ????(Prometheus metrics)
- ??? ??(Semantic caching)
- ?? ?? ??(Concurrent model execution)
?? ?? ?? ??
?? ?? ??(LoRA)? ??? ???? ???? ?? ??(PEFT) ????, ???? ??? ???? ??? ???? ????? LLM? ??? ??? ? ??? ????. ?? ?? ???? ?? ?? ????? ?????? ??, LoRA? ?? ?? ??? ?? ?? ??? ??? ???? ??? ?? ??? ?? ??? ?? ????.
??? LoRA ???? ?? ????? ??????? ?? ????, ?? ???? ?? ???? ????? ? ??? ? ????.
TensorRT-LLM BART LoRA ??? ??? ??? ???? LoRA ??? ???? ?? ?? ??? ????? ?????. ?? ?? ??? ?? ??? ?? ? ????.
- ?? ?? ??? ?? ?? LoRA ???? ????? ??
- LoRA ???? ?? ??? ?? ??? ??? ??
- ?? BART ?? ???? ??? ??
??
NVIDIA TensorRT-LLM? ??? ?????? LLM? ????? ????? ???? ?? ??? ?? ???? ????. ???-??? ??? ?? ?? ???? FP8 ???? ????, ?? ??? ???? ?? ???? ? ????. ?? ??? ??, NVIDIA Triton Inference Server? ??? ??? ???? ? ???? ???? ?????.
?? ?? ?? ?? ??? ??? ??? NVIDIA AI Enterprise ????? ???? ??? NVIDIA NIM? ??? ? ????. ? ???? NVIDIA? ??? ???? ?? ??? ???? ??? ?????.
?? ??
- GTC ??: TensorRT-LLM? ?? LLM ?? ?? ??
- GTC ??: NeMo, TensorRT-LLM, Triton Inference Server? ?? LLM ?? ?? ? ?? ???
- GTC ??: ??? ??? ?? TensorRT-LLM? ?? LLM ??? ? ??
- SDK: TensorFlow-TensorRT
- SDK: TensorRT
- SDK: Torch-TensorRT