Meta? Llama ?? ?? ?? ???? ??? ?? ?? ?????? ?? ?? ?? ????? ???, ??? ?? ??? ?????. ? ?? ??? ?? ???? ?? ??? ???? ?? ??????? ???? ????.
Meta? Llama 3.1? ?? ?? ?? ??(LLM) ???? ???? LLM ??? ???? ?? ??? ??? ?? ?? ???? ?????.
Meta ?????? NVIDIA H100 ?? ?? GPU?? Llama 3? ??????. ?? ???? ??? ?? ????? 16K ??? H100 GPU? ?? ????? ???? 405B? ? ??? ????? ??? Llama ??? ???? ?????.
??????? ??, PC? ????? ?? NVIDIA ???? ?? ? ?? 1? ? ??? GPU? ???? Llama 3.1 ???? ???????.
NVIDIA ?? ??? ????? ????? Llama 3.1
TensorRT-LLM? ???? ?? NVIDIA H200 ?? ?? GPU? Llama 3.1-405B?? ??? ?? ??? ?????. H200 GPU? ??? HBM3e ??? ??? ?? ? ??? H200 GPU 8?? ??? ?? HGX H200? ???? ??? ? ????. 4?? NVLink? 3?? NVSwitch? ??? ?? GPU ?? PCIe Gen 5?? 7? ?? ???? ??? ?????? Llama 3.1-405B? ?? ?? ??? ??? ? ?? ???? ??????.
? 1? 2? 8-GPU H200 ????? ???? Llama 3.1-405B? ??? ?? ? ?? ??? ??? ?? ?? ??? ??? ?????.
?? | ?? ??? ?? | 2,048 | 128 | 32,768 | 2,048 | 120,000 | 2,048 |
?? ??/? | 399.9 | 230.8 | 49.6 |
NVIDIA ?? ??. ?? ??/??? ? ?? ??? ???? ??? ???? ????. tok/s = ? ??? ??; / ? ?? ??. ?? ?? ???? ?? ??? ?? ??, DGX H200, TP8, FP8, TensorRT-LLM ?? 0.12.0.dev2024072300.
?? ??? ?? ??? ??? ?? ? ?? ??? ??? ???? ?? ?? ?? ??? ??????:
?? | ?? ??? ?? | 2,048 | 128 | 32,768 | 2,048 | 120,000 | 2,048 |
?? ??/? | 37.4 | 33.1 | 22.8 |
NVIDIA ?? ??. ?? ??/??? ? ?? ??? ???? ??? ?????. tok/s = ? ??? ?? ?; / ? ?? ??. DGX H200, TP8, FP8, ?? ?? = 1, TensorRT-LLM ?? 0.12.0.dev2024072300.
? ???? ? ? ???, H200 GPU? TensorRT-LLM? ?? ?? ?? ?? ?? ??? ? ??? ??? ???? ???? Llama 3.1-405B?? ??? ??? ???? ????.
NVIDIA ?????? ???? ?? ???? Llama 3.1? ????
?????? ??? Llama? ????? ?? ??? ?????:
- ?? ???? ?? ??? ???? ??
- ?? ???(RAG) ??????? ????? ?? ?? ??? ??
- ?? ???? ??? ? ?? ??
- ??? ??? ?? ???? ???? ??
- ???? ?? ???
?? ???? ?? NVIDIA? ??? ?? ??? NVIDIA ?????? ??? ? ??? ???? ??? ?? ???? ???.
??, ?? ??? ??, ?????? ? ????? ??? ??? ??? ??????. ??? ?? ???? ??? ???? ???? ??? ??? ??? ????? ? ???? ????.
NVIDIA? ??? ??? ??? ??? ???? ? ??? ?? Llama 3.1? ???? ?? ?? ??? ??(SDG) ?????? ???? ? ??? ???? ????.

Llama 3.1-405B? ???? SDG ??????? ?????? ??? ? ?? ??? ??? ??? ???? ? ????. ??? ?? ??? ?? Nemotron-4 340B ??? ??? ???? ??? ???? ??? ?? ???? ???? ??? ???? ?? ??? ??? ?????. ? ??? ??? ?? ?? 92.0??? RewardBench ????? 1?? ??????. ? ??? ?? ??? ?? ??? ???? ???? ??? ??? ????? Chat-Hard ?? ???? ??? ??? ?????. ??? ??? Llama 3.1 405B? ???? ?? ??? ???? ?????.
??? ??? ???? NVIDIA NeMo ???? ???? ??? ????, ??? ? ??? ? ????.
NVIDIA NeMo
Llama 3.1? ??? ??? ??????? ????? NVIDIA NeMo? ??? ? ????. NeMo? ???? ??? ??? AI? ??? ? ?? ????? ???? ?????. ?? ?? ?? ??? ???? ?? ??? GPU?? GPU ???? ???? ???? NVIDIA GPU ??? ??????.
? ?? ?? ???? ?? ?? ? ?? ?? ??? ??? ? ????:
- NeMo ????? ???? ?????? ??? ???? ???? ??? ??? ??, ?? ??, ??? ? ???? ??? ??? ??? ?????.
- p-??, ?? ?? ??(LoRA) ? ? ???? ??(QLoRA)? ?? ???? ??? ?? ??(PEFT) ??? ???? ??? ????? ?????. ??? ??? ?? ??? ??? ??? ?? ????? ??? ??? ??? ? ?????.
- ?? ??? ???? ??? ???? ?? Llama 3.1 ??? ???? ??? ?? ?? ??????? ??? ? ??? ?????. ?? NeMo?? ???? ??? ??? ????:
- ?? ?? ??? ???? ???? NeMo Evaluator ???????? LLM ??? ??????. ? ???????? ??? ????, ??? ?? ??? ??? ?? ???? ???? LLM-as-a-judge? ??? ? ????(???? ???? ?? ?????? ???).
- ?? ?? ??(RAG) ??? ??????? ??? NeMo Retriever? ?????. ? ???? ???? ?? ???? ??? ??? ?????? ???? ??? ??? ?? ??? ?? ??? ?????.
- LLM ?? ??? ??????? ????? ??? ????? ???? ???, ??, ?? ? ??? ??? ???? NeMo Guardrails? ??? ??? ? ????. Meta? ?? Llama Guard? ?? ?? ???? ? ?? ??? ?? ??? ? ????. ?? LangChain ? LlamaIndex? ?? ?? ?????? ??? ??? ??? ???? ?????.
??? ??? ? ?? ??? NVIDIA AI Foundry? ?? ?????.
????? ?? ??? Llama
?? Meta-Llama 3.1-8B ??? NVIDIA GeForce RTX PC ? NVIDIA RTX ???????? ??? ????????.
Windows? TensorRT Model Optimizer? ?? Llama 3.1-8B ??? AWQ ?? ? ???(PTQ) ???? INT4? ??????. ? ?? ??? ??? NVIDIA RTX GPU?? ?? ??? GPU ???? ?? ? ?? ?? ??? ??? ??? ?? ??? ?? ??? ??? ? ????. ? ???? LLM ?? ??? ????? ?? ?? ?????? NVIDIA TensorRT-LLM?? ????? ?????.
??, Llama 3.1-8B ??? ?? ?? ? ?? ??? ????? ?? NVIDIA Jetson Orin? ????? ????.
Llama 3.1? ?? ?? ???
?? Llama 3.1 ??? 128K ???? ??? ???? BF16 ???? ?? ? ????? ???? ?????.
?? ? ???? ?? TensorRT-LLM?? ??????. TensorRT-LLM? ?? ??? ????? ?? ?? ??? ??? ???? ?? ????? ???? CUDA ??? ??? TensorRT ???? ??????. ?? ?? ??? ??? ? ?? ???? ???? TensorRT-LLM ???? ?? ?????:
- ????? ??(in-flight batching)
- KV ??
- ??? ???? ??? ?? ???
TensorRT-LLM? ??? ?? ?? ???(RoPE) ???? 128K? ? ???? ??? ????, H100? BF16 ??? ?? ???? ?? GPU ? ?? ?? ??? H200? ?? ?? ??? ??? Llama 3.1-405B? ?? GPU ? ?? ?? ??? ?????.
FP8 ???? ??? ?????. NVIDIA Hopper ? NVIDIA Ada GPU?? ?? ? ???(PTQ)? ???? ??? ?? ?? ? ?? ??? ????? ? ?? ??? ???? ?? ???? ????? ?? ? ????.
Llama 3.1-405B ??? ??, TensorRT-LLM? ? ?? ??? ???? FP8 ???? ?? ??? ??????. ???? ?? ???? ???? ?? ? ?? ??? ??? ?? ?? ???? ??(?? ?)? ? ??? ?? ?? ???? ??(?? ?)? ???? ?? ?????.
TensorRT ?? ?? ???? ?? ?? ??? ??? ??? ???? ??? ? ????. TensorRT-LLM? ??? ? ???? ??? ??? ????? ???? ????? ??? ?? ????? Llama 3.1 ??? ?? FBGEMM? ?? ??? ?? ??? ?? ??? ?????.
?? ? ??? ???? ?? TensorRT-Model-Optimizer ? TensorRT-LLM ???? NVIDIA NIM ?? ???????? ?? ??? ?????.
NVIDIA NIM
?? ???? ??? ?? NVIDIA NIM? ?? Llama 3.1? ?????. NIM ?? ???????? ????, ?????, ?????? ? ???? NVIDIA ?? ??? ??? ?? ??? AI ??? ??? ??????.
NIM? ?? LoRA ??? ??? ????? ?? ????? ??? ?? ?? ??? ??? ? ????. ?? GPU ? ??? ??? ???? ???? ???? ???? ?? ???? ?? ????, ?? GPU ??? ?? ?? ??? ??? ????? ??????.
?? ??
NVIDIA ?? ??? ???? ???? ??????? NVIDIA RTX ? NVIDIA Jetson? ????? ?? ????? ?? ???? Llama 3.1? ???? ??? ??????? ??? ? ????.
NVIDIA? ?? ?? ????? ? ??? ??, ??? ? ???? ?? ??? ??? ????. ??? AI? ?? NVIDIA AI ???? ?? ??? ?????.
?? ???
- NGC ????:?Llama-3.1-8b-base
- NGC ????:?Llama-3.1-8b-instruct
- NGC ????:?Llama-3.1-70b-instruct
- SDK:?Llama3 8B Instruct NIM
- SDK:?Streamline
- SDK:?Llama3 70B Instruct NIM