• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • Conversational AI / NLP

    NVIDIA Faster Transformer? ?? KoGPT? ?? ???

    Reading Time: 4 minutes

    ?????? ??? ?? ??? ?? AI ?? ???? ? ???? ?? AI R&D? ??? ???? ????. ??? ??(NLP)? ?? ??? ?? ??? ?????? ?? ??? ??, ?? ?? ??, ?? ?? ??, ?? ??? ?? ? ?? ?? AI ??? ???? ????. 

    ????? ??????? ????? ????? ???? ??? ?? ??? ?? ??? ‘KoGPT’? ??????. ??? ??? ????? ???? FasterTransformer? ??? ???? ??????. ?? ?????? ????? ??????? ??? FasterTransformer? ?? KoGPT? ?????? ???????. 

    FasterTransformer ??

    ?? ???: ?? GPU/?? ?? GPU? ???? ??, ??, ??? ??, ?? ?? ? ??? ?? ??? ???? FasterTransformer? ??? ???? ???
    ?? 1. ?? GPU/?? ??? ???? ??, ??, ??? ??, ?? ?? ? ??? ??? ??(NLP) ??? ???? FasterTransformer

    Transformer ? ?? ????? ?? ?? ???? ?? ??? ???????. NLP (Natural Language Processing) ??? ???? Vision, Speech, Generative AI??? ??? ????? ???? ????. NLP ???? ?? ???? AI ???? GPT ??? ????. GPT ??? OpenAI?? ??? ?? ???? Transformer ?? ?????? decoder block? ?? ? ?? ???? ?? ?????. ?? ?? GPT-3? ????? ????? ??? ??? ?? ??? ??? ????? ?? ??? ?? ??? ??? ? ????. 

    ??? ?? ??????? ???? ???? ??? ?? ???? ????.

    • ??? ??????? ?? GPU? ??? ??? ? ?? ??? ?? ???? ?????.
    • ??? ???? ??? ?? ??? ???? ??? ??? ??? ??? ? ????. ??? ????, ?????, ???? ? ??? ?? ??? ?? ???? ?????.

    Nemo ?????? FasterTransformer? ?? ??? ?? ????? ?? ??? ?? ??? ?? ? ?? ??? ??? ?????. 

    FasterTransformer? ???

    FasterTransformer? ?? ??? ?? ??? (?????? ????????) ??? ???? ?? ????? ??? ?? ?? ?? ??? ??? ????????. FasterTransformer? ?? ? ?? ?????? ?? ?? ??? ????? ???? ????? ?? ???????. 

    FasterTransformer?? ????? ????? ??? ???? ???? ??? ??? ?????. C++/CUDA? ?????? TensorFlow, Pytorch ? Triton Backend ?????? API? ?????. ?? ??? ??? ? ?? ?? ??? ?? ?????. ?? ?? ?? (GPT-3, GPT-J, GPT-NeoX, BERT, ViT, SwinTransformer, Longformer, T5, XLNet, BLOOM) ? ????, ??? ??? ?? ??? ????? ???? ????. ?? ???? ?? ??? ?????. ?? ?? matrix? ??? ?????. (https://github.com/NVIDIA/FasterTransformer#support-matrix

    ?? ??? ?? ?? FasterTransformer? ?? ? ?? Framework?? ?? ????? ?? ???, ??? ?? inference pipeline? ?? ???. ??? FasterTransformer?? ??? ??? ??? ??? ???????.

    • Layer Fusion:  ??? ??? ?? ???? ?? ???? ???? ?????. ? ??? ??? ??? ??? ?? ???? ?? ?? ??? ??????.  ??? ???? ?? Bias + LayerNormalization, Bias + activation, Bias + Softmax ? Attention layer? 3?? transpose matrix? fusion ?? ??? ????.  
    • Multi-head attention Acceleration: Multi-head attention? ????? ?? ?? ??? ?????. ? ???? ?? ?? ??? ??? ??? ?????. FasterTransformer??? ??? ??? ???? ??? ???(K/V cache), ?? ??? ???? ??? ?? ??? ??????. 
    • GEMM Kernel autotuning: Matrix Multiplication? ????? ?? ???? ?? ????? ??? ?????. FasterTransformer? ? ??? ???? ?? cuBLAS ? CUTLASS ??????? ???? ??? ?????. Matrix Multiplication ??? “????” ???? ?? ?? low-level ??? ??? ? ????. FasterTransformer? ??? ?? ??(Attachment ???, ??, Attachment ?? ?, ?? ??? ??, ?)? ?? ???? ?? ??? ????? ???? ?? ??? ??? ?? ??? ?????. 
    • Lower precision:  Fastertransformer??? FP16? BF16, INT8 ??? ??? ?? ?? ???? ??? ??? ?????.  FP16? BF16, INT8? ?? ??? NVIDIA? ??  GPU(Volta ???? ??)?? TensorCore? ?? ??? ? ? ????. ??, Hopper GPU??? Transformer engine? ?? ?? ????? ??? ? ????.

    KoGPT ??

    ?? ???: ??, ?? ??, ??? ?? ? ??? ?? ???? ???? ???? ???? ??? ?? ? ??? ???? ??? ??? ???? ??????? KoGPT? ???? ??
    ?? 2. KoGPT? ??, ?? ??, ??? ?? ? ??? ???????? ???? ???? ???? ??? ???? ??? ??? ??? ??? ???? ????

    ??????? KoGPT? ??? ???? ???, ????? ???? ???? ??? ?? ??? ??? ?????. GPT-3 ?? ?? ??? KoGPT? ????, ??? ??? ???? ???? ????, ?? ?? ?? ?? ????, ??? ???, ?? ?? ???? ? ???? ??? ?? ??? ??? ? ????. ? ??? ??? ???? ?? ??, ?? ??, ??, ?? ?? ? ????? ?? ???? ??? ? ????. 

    KoGPT ? ??? FasterTransformer

    ??????? GPT-3 ?? ?? ??? KoGPT? ?????? ????. KoGPT? HuggingFace? ???? ???? ?????. ??? ??? ??? ???? ??? ??? ?? ???? ???? ???? ????? ??? ?? ??? ?????. ?? ??? ???? ???? ????? ?? ??? ??? ??????? ???? ?? ?? ???? ???? ??? ?? ??? ???? ??? ??????. ??????? GPT-3? ?? ??? ????? ???? ??? ?? ?????? ?? ?? ??? ?? ?????. ??? ? NVIDIA? FasterTransformer? ?????? ?? ??? ?? ?? ???? ?? ??? ? ?????. ?? ??? ??? ?? ?? ?? ?? ???? ????? V100 1 GPU?? ?? ???? ?? 4? (400%) ?? ?? ??? ???? ??? ? ?????. NVIDIA? FasterTransformer? ?? ???, ????? ???? ????, V100 4 GPU? ??? ?? ?? ??? ???? 11? (1100%) ?? ???? ??? ? ?????.

    ?? ???: ??????? KoGPT ??? ?? GPU?? 4?, ?? GPU?? 11? ? ?? ??? ?? FasterTransformer? ??? ???? ??
    ?? 3. FasterTransformer? KoGPT? ?? GPU? ?? GPU?? ?? 4?, 11? ?? ??? ???? PyTorch? ?? ??? ?? ??? ?????

    NVIDIA? FasterTransformer? ?? KoGPT? ??? ?? ? ???? ??  ??? ??? ?? ??? ? ???, ?????? ML Optimization ?? ??? ?????? ???? ? ?? ??? ??? ? ?? ???(TCO)? 15%?? ??? ? ?????.

    ??? ??????? ??? ?? LLM ?? KoGPT? ??? AI ?? KoChat GPT? ?? ? ???? ??? ?? ??? ??? ???.

    ? ???? ??? SDK? ???? ?? ???, ?? ???, ?? ??, ??, ?? ??, ???? NVIDIA ??? ???? ??? ??? ??? ??? ? ????. ?? ??? ???? NVIDIA? ?? ????? ???? ? ??? ??? ??? ?????? ???? ??? ??? ???.

    Discuss (0)
    +3

    Tags

    人人超碰97caoporen国产