• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • Megatron? DeepSpeed? ? ???? ???? ?? ? ?? ?? ?? Megatron-Turing NLG ????(1)

    Reading Time: 4 minutes

    NVIDIA Megatron? ????(DeepSpeed) ?? Megatron-Turing Natural Language Generation(MT-NLG)? ??? ????? ?? ? ?? ?? ?????. ? ??? ????? (transformer) ?? ??? ????? ?? 5,300? ?? ???. ?? ??? ??? ??? AI? ??? ??? NVIDIA? ???????? ???? ??? ??? ????? ???.

    Turing NLG 17BMegatron-LM? ?? ??? MT-NLG? ???? ?? ???? ?? ?? ??? ???? ????? ?? 3? ????. ?? ???? ???? ??? ????? ???? ???? ?????.

    • ??? ??
    • ??
    • ?? ??
    • ??? ??
    • ?? ??? ??

    ????? ?? MT-NLG? 105?? ???? ???? ??? ???(zero-shot)? ??(one-shot), ??(few-shot) ?? ???? ??? ??? ???? ??? ??? ?? ???? ??? ?? ??? ??? ??? ?????.

    ??? ?? ??

    ?? ? ? ?? ??? ??(NLP) ???? ????? ?? ?? ??? ????? ??? ??? ??? ?????, ?? ????? ?????? ??? ??? ??? ??????.

    ????? ???, ???? ??? ?? ?? ??? ??? ??? ??? ??? ????? ??? ? ?? ???. ?? ?? ???? ??? ?? ?? ????? ???? ??? ??? ? ???, ??? NLP ???? ??????? ??? ???? ????. ?? ????? ???? ???? ??, ?? ?? ??, ??, ??? ??(semantic search), ?? ?? ?? ? ???? ???? ??? ? ????. ??? NLP ??? ????? ??????? ??? ?? ?? ??? ?? ?? ????(??1??).

    Chart shows model sizes in billions from 2018 ELMo at 94M to Megatron-Turing NLG in 2021 at 530B.
    ?? 1. ??? ??? ?? ??? NLP ??? ?? ??

    ??? ??? ??? ?????? ??? ?? ???? ????.

    • ???? GPU? ????? ? ???? ????? ? ?? ??? ? ????.
    • ???? ??? ??? ???? ?? ????? ?????? ? ??? ??? ? ????. ?? ???? ????? ?????, ???? ?? ??? ???? ??? ??? ???? ???.

    MT-NLG? ????? AI ???? ??? ??? ??? ??? ?? ??? ??? ??????. ?? ?? NVIDIA? ???????? ??? ?? ?? ??? GPU ?? ???? ???? ?? ?? ??(distributed learning) ????? ??? ??? ?? ?? ???? ??? ??????. ?? ??? ?? ??(token)?? ???? ??? ???? ???(corpus)?? ???? ??, ???????? ?? ??? ???? ???? ???? ????.

    ?? ?????? MT-NLG ????? ??? ??? ????? ?? ??? ??? ?????.

    ??? ???? ???

    NVIDIA A100 Tensor Core GPU? HDR InfiniBand ????? ???? ?? NVIDIA Selene, ??????? ??(Azure) NDv4 ?? ??? ????? ????? ?? ?? ????? ?? ??? ???? ?? ?? ?? ??????? ??? ??? ??? ??? ????. ??? ?????? ? ?? ???? ??? ?????, GPU ?? ?? ?? ???? ?? ???? ??? ???? ???? ?? ???? ???? ??.

    ?? ??? ???/????? ???? ?? ????(tensor-slicing) ?? ??? ??? ?? ?? ??? ? ???? ??? ?? ???? ?? ???? ??? ???? ??, MT-NLG ??? ??? ?? ??? ?????? ??? ? ??? ??? ????.

    • ??? ???? ??? ??? ??? ?????. ??? ??? ??? ????? ?? ??? ??? ??? ? ????.
    • ?? ????? ??, GPU ?? ??? ??? ????? ?? ??? ???? NVLink? ???? ??? ??? ??? ??? ?????.
    • ????? ???? ?? ? ??? ??? ?????. ??? ??? ??? ???? ??? ?? ???(batch size)? ? ??? ??? ???(coarse grain parallelism), ??? ?? ???(load balancing)? ?????. ?? ????? ??? ??????.

    ????? ???

    ??? ??? ???? ?? NVIDIA Megatron-LM? ??????? ????(DeepSpeed)? ??? ??? ??, ???? ?????, ?? ???? ?? ???? ?? ??? ? ?? ????? ?? ??? 3D ?? ???? ??????.

    ?? ????? ????? ???? ??? ??? ???? ??? ???? ???? ? ????. ?? ?? ?? ? ?? ???? Megatron-LM? ?? ?????, ?? ? ?? ???? ????? ????? ???? ??? ? ?? ??.

    ?? ????? 5,300? ?? MT-NLG ??? ?? ? ??? ???? 280?? NVIDIA A100 GPU? ?? ???, ?? ? 8?? ?? ????? ?? ? 35?? ????? ???? ?????. ?? ?? ????? ??? ???? ??? ?? ?? GPU? ?? ??? ????.

    ???? ???

    ??? ????? NVIDIA DGX SuperPOD ?? Selene ??????? ?? ???(mixed precision)? ?????. ?? Selene? ?? ? ??(fat tree) ??? HDR InfiniBand? ?? ???? DGX A100 ?? 560?? ?????. ? DGX A100?? 8?? NVIDIA A100 80GB Tensor Core GPU? ????, ??? NVLink? NVSwitch? ??? ?????. ?? ??? ??(reference) ????? ??????? ?? NDv4 ???? ???????? ??? ? ????.

    ??? ???

    ??? 5,300? ???? ??? ???? ??-?-?? ???? ???? ?? Selene? DGX A100 ?? 280?, 350?, 420??? ?? ??? 1920? ??????. ?? ??(iteration) ??? ?? 60.1?, 50.2?, 44.4?? ??????. ?? GPU ? 126? 121, 113 ?????? ?????.

    ????? ?????? ?? ??

    ??? ??? ????? ???? ????? 5,300? ?? ????? ??? ???-?-???(left-to-right) ??? ????? ?? ?? ?????. ???? ?? ???(hidden dimension), ??? ??(attention head)? ?? ?? 105?, 20480?, 128????.

    ?? 8?? ?? ????? 35?? ????? ???? ??????. ??? ??? 2048, ?? ?? ???? 1920???. ?? 120? ??? ????? ??? ??, 32? ??? ?? ???? 32? ????? ?? ?? ???? 1920? ??????. ???? ? ???? ??? ???? ??? ??? 10? ????.

    ????? ?????? ??? ??? ??? ‘? ??(The Pile)’? ?? ???? ??????. ?? ??? ??? ?? ??? ??? ‘? ??’?? ?????? ?? ??(Table 1? ?? 11? ?)? ??????. ?? ?? ??-CC(Pile-CC)? ??? ??? ?? ??? ???? ??, ?? ??(Common Crawl, CC)? ?? ??? 2?? ????, ???????.

    CC ???? ???? ?? HTML ??? ??? ??, ??? ???? ????? ?? ???? ?? ?? ?? ??, ?? ??? ??? ?? ?? ??? ?? ??? ??????. ????? ???? ?? ????(RealNews)CC ????(CC-Stories) ?????? ????.

    ??? ???? ?? ?? ?????? ?? ??? ??? ? ???? ????? ?????? ??? ?? ??? ?? ??(deduplication)? ??????. ??? ?? ???? ?? ??(min-hash) LSH? ???? ??(fuzzy) ?? ?? ????? ?? ?? ???? ? ?? ?? ??? ??? ?? ??? ??????.

    ???? ?????? ??? ??? ?? ??? ??? ??? ?? ?? ? ?? ???? ???? ??????. ????? n-??(n-gram) ?? ???? ?? ????? ??????? ????? ??? ???? ??? ??? ??? ??????.

    ? ?? ? 3,390? ?? ???? ??? ????? 15?? ???? ?????. ????? ???? ?? Table 1? ??? ??? ???? ?? ??????? ???? ??? ??? ???? ?????? ???? ??????. ?? ??? 2,700? ?? ???? ????? ??????.

    ?? ????? ????? ??? ??? ?? ?????!

    Discuss (0)
    0

    Tags

    ?? ???

    人人超碰97caoporen国产