NVIDIA Megatron? ????(DeepSpeed) ?? Megatron-Turing Natural Language Generation(MT-NLG)? ??? ????? ?? ? ?? ?? ?????. ? ??? ????? (transformer) ?? ??? ????? ?? 5,300? ?? ???. ?? ??? ??? ??? AI? ??? ??? NVIDIA? ???????? ???? ??? ??? ????? ???.
Turing NLG 17B? Megatron-LM? ?? ??? MT-NLG? ???? ?? ???? ?? ?? ??? ???? ????? ?? 3? ????. ?? ???? ???? ??? ????? ???? ???? ?????.
- ??? ??
- ??
- ?? ??
- ??? ??
- ?? ??? ??
????? ?? MT-NLG? 105?? ???? ???? ??? ???(zero-shot)? ??(one-shot), ??(few-shot) ?? ???? ??? ??? ???? ??? ??? ?? ???? ??? ?? ??? ??? ??? ?????.
??? ?? ??
?? ? ? ?? ??? ??(NLP) ???? ????? ?? ?? ??? ????? ??? ??? ??? ?????, ?? ????? ?????? ??? ??? ??? ??????.
????? ???, ???? ??? ?? ?? ??? ??? ??? ??? ??? ????? ??? ? ?? ???. ?? ?? ???? ??? ?? ?? ????? ???? ??? ??? ? ???, ??? NLP ???? ??????? ??? ???? ????. ?? ????? ???? ???? ??, ?? ?? ??, ??, ??? ??(semantic search), ?? ?? ?? ? ???? ???? ??? ? ????. ??? NLP ??? ????? ??????? ??? ?? ?? ??? ?? ?? ????(??1??).

??? ??? ??? ?????? ??? ?? ???? ????.
- ???? GPU? ????? ? ???? ????? ? ?? ??? ? ????.
- ???? ??? ??? ???? ?? ????? ?????? ? ??? ??? ? ????. ?? ???? ????? ?????, ???? ?? ??? ???? ??? ??? ???? ???.
MT-NLG? ????? AI ???? ??? ??? ??? ??? ?? ??? ??? ??????. ?? ?? NVIDIA? ???????? ??? ?? ?? ??? GPU ?? ???? ???? ?? ?? ??(distributed learning) ????? ??? ??? ?? ?? ???? ??? ??????. ?? ??? ?? ??(token)?? ???? ??? ???? ???(corpus)?? ???? ??, ???????? ?? ??? ???? ???? ???? ????.
?? ?????? MT-NLG ????? ??? ??? ????? ?? ??? ??? ?????.
??? ???? ???
NVIDIA A100 Tensor Core GPU? HDR InfiniBand ????? ???? ?? NVIDIA Selene, ??????? ??(Azure) NDv4 ?? ??? ????? ????? ?? ?? ????? ?? ??? ???? ?? ?? ?? ??????? ??? ??? ??? ??? ????. ??? ?????? ? ?? ???? ??? ?????, GPU ?? ?? ?? ???? ?? ???? ??? ???? ???? ?? ???? ???? ??.
?? ??? ???/????? ???? ?? ????(tensor-slicing) ?? ??? ??? ?? ?? ??? ? ???? ??? ?? ???? ?? ???? ??? ???? ??, MT-NLG ??? ??? ?? ??? ?????? ??? ? ??? ??? ????.
- ??? ???? ??? ??? ??? ?????. ??? ??? ??? ????? ?? ??? ??? ??? ? ????.
- ?? ????? ??, GPU ?? ??? ??? ????? ?? ??? ???? NVLink? ???? ??? ??? ??? ??? ?????.
- ????? ???? ?? ? ??? ??? ?????. ??? ??? ??? ???? ??? ?? ???(batch size)? ? ??? ??? ???(coarse grain parallelism), ??? ?? ???(load balancing)? ?????. ?? ????? ??? ??????.
????? ???
??? ??? ???? ?? NVIDIA Megatron-LM? ??????? ????(DeepSpeed)? ??? ??? ??, ???? ?????, ?? ???? ?? ???? ?? ??? ? ?? ????? ?? ??? 3D ?? ???? ??????.
?? ????? ????? ???? ??? ??? ???? ??? ???? ???? ? ????. ?? ?? ?? ? ?? ???? Megatron-LM? ?? ?????, ?? ? ?? ???? ????? ????? ???? ??? ? ?? ??.
?? ????? 5,300? ?? MT-NLG ??? ?? ? ??? ???? 280?? NVIDIA A100 GPU? ?? ???, ?? ? 8?? ?? ????? ?? ? 35?? ????? ???? ?????. ?? ?? ????? ??? ???? ??? ?? ?? GPU? ?? ??? ????.
???? ???
??? ????? NVIDIA DGX SuperPOD ?? Selene ??????? ?? ???(mixed precision)? ?????. ?? Selene? ?? ? ??(fat tree) ??? HDR InfiniBand? ?? ???? DGX A100 ?? 560?? ?????. ? DGX A100?? 8?? NVIDIA A100 80GB Tensor Core GPU? ????, ??? NVLink? NVSwitch? ??? ?????. ?? ??? ??(reference) ????? ??????? ?? NDv4 ???? ???????? ??? ? ????.
??? ???
??? 5,300? ???? ??? ???? ??-?-?? ???? ???? ?? Selene? DGX A100 ?? 280?, 350?, 420??? ?? ??? 1920? ??????. ?? ??(iteration) ??? ?? 60.1?, 50.2?, 44.4?? ??????. ?? GPU ? 126? 121, 113 ?????? ?????.
????? ?????? ?? ??
??? ??? ????? ???? ????? 5,300? ?? ????? ??? ???-?-???(left-to-right) ??? ????? ?? ?? ?????. ???? ?? ???(hidden dimension), ??? ??(attention head)? ?? ?? 105?, 20480?, 128????.
?? 8?? ?? ????? 35?? ????? ???? ??????. ??? ??? 2048, ?? ?? ???? 1920???. ?? 120? ??? ????? ??? ??, 32? ??? ?? ???? 32? ????? ?? ?? ???? 1920? ??????. ???? ? ???? ??? ???? ??? ??? 10? ????.
????? ?????? ??? ??? ??? ‘? ??(The Pile)’? ?? ???? ??????. ?? ??? ??? ?? ??? ??? ‘? ??’?? ?????? ?? ??(Table 1? ?? 11? ?)? ??????. ?? ?? ??-CC(Pile-CC)? ??? ??? ?? ??? ???? ??, ?? ??(Common Crawl, CC)? ?? ??? 2?? ????, ???????.
CC ???? ???? ?? HTML ??? ??? ??, ??? ???? ????? ?? ???? ?? ?? ?? ??, ?? ??? ??? ?? ?? ??? ?? ??? ??????. ????? ???? ?? ????(RealNews)? CC ????(CC-Stories) ?????? ????.
??? ???? ?? ?? ?????? ?? ??? ??? ? ???? ????? ?????? ??? ?? ??? ?? ??(deduplication)? ??????. ??? ?? ???? ?? ??(min-hash) LSH? ???? ??(fuzzy) ?? ?? ????? ?? ?? ???? ? ?? ?? ??? ??? ?? ??? ??????.
???? ?????? ??? ??? ?? ??? ??? ??? ?? ?? ? ?? ???? ???? ??????. ????? n-??(n-gram) ?? ???? ?? ????? ??????? ????? ??? ???? ??? ??? ??? ??????.
? ?? ? 3,390? ?? ???? ??? ????? 15?? ???? ?????. ????? ???? ?? Table 1? ??? ??? ???? ?? ??????? ???? ??? ??? ???? ?????? ???? ??????. ?? ??? 2,700? ?? ???? ????? ??????.