?????? ??? ?? ??? ?? AI ?? ???? ? ???? ?? AI R&D? ??? ???? ????. ??? ??(NLP)? ?? ??? ?? ??? ?????? ?? ??? ??, ?? ?? ??, ?? ?? ??, ?? ??? ?? ? ?? ?? AI ??? ???? ????.
????? ??????? ????? ????? ???? ??? ?? ??? ?? ??? ‘KoGPT’? ??????. ??? ??? ????? ???? FasterTransformer? ??? ???? ??????. ?? ?????? ????? ??????? ??? FasterTransformer? ?? KoGPT? ?????? ???????.
FasterTransformer ??

Transformer ? ?? ????? ?? ?? ???? ?? ??? ???????. NLP (Natural Language Processing) ??? ???? Vision, Speech, Generative AI??? ??? ????? ???? ????. NLP ???? ?? ???? AI ???? GPT ??? ????. GPT ??? OpenAI?? ??? ?? ???? Transformer ?? ?????? decoder block? ?? ? ?? ???? ?? ?????. ?? ?? GPT-3? ????? ????? ??? ??? ?? ??? ??? ????? ?? ??? ?? ??? ??? ? ????.
??? ?? ??????? ???? ???? ??? ?? ???? ????.
- ??? ??????? ?? GPU? ??? ??? ? ?? ??? ?? ???? ?????.
- ??? ???? ??? ?? ??? ???? ??? ??? ??? ??? ? ????. ??? ????, ?????, ???? ? ??? ?? ??? ?? ???? ?????.
Nemo ?????? FasterTransformer? ?? ??? ?? ????? ?? ??? ?? ??? ?? ? ?? ??? ??? ?????.
FasterTransformer? ???
FasterTransformer? ?? ??? ?? ??? (?????? ????????) ??? ???? ?? ????? ??? ?? ?? ?? ??? ??? ????????. FasterTransformer? ?? ? ?? ?????? ?? ?? ??? ????? ???? ????? ?? ???????.
FasterTransformer?? ????? ????? ??? ???? ???? ??? ??? ?????. C++/CUDA? ?????? TensorFlow, Pytorch ? Triton Backend ?????? API? ?????. ?? ??? ??? ? ?? ?? ??? ?? ?????. ?? ?? ?? (GPT-3, GPT-J, GPT-NeoX, BERT, ViT, SwinTransformer, Longformer, T5, XLNet, BLOOM) ? ????, ??? ??? ?? ??? ????? ???? ????. ?? ???? ?? ??? ?????. ?? ?? matrix? ??? ?????. (https://github.com/NVIDIA/FasterTransformer#support-matrix)
?? ??? ?? ?? FasterTransformer? ?? ? ?? Framework?? ?? ????? ?? ???, ??? ?? inference pipeline? ?? ???. ??? FasterTransformer?? ??? ??? ??? ??? ???????.
- Layer Fusion: ??? ??? ?? ???? ?? ???? ???? ?????. ? ??? ??? ??? ??? ?? ???? ?? ?? ??? ??????. ??? ???? ?? Bias + LayerNormalization, Bias + activation, Bias + Softmax ? Attention layer? 3?? transpose matrix? fusion ?? ??? ????.
- Multi-head attention Acceleration: Multi-head attention? ????? ?? ?? ??? ?????. ? ???? ?? ?? ??? ??? ??? ?????. FasterTransformer??? ??? ??? ???? ??? ???(K/V cache), ?? ??? ???? ??? ?? ??? ??????.
- GEMM Kernel autotuning: Matrix Multiplication? ????? ?? ???? ?? ????? ??? ?????. FasterTransformer? ? ??? ???? ?? cuBLAS ? CUTLASS ??????? ???? ??? ?????. Matrix Multiplication ??? “????” ???? ?? ?? low-level ??? ??? ? ????. FasterTransformer? ??? ?? ??(Attachment ???, ??, Attachment ?? ?, ?? ??? ??, ?)? ?? ???? ?? ??? ????? ???? ?? ??? ??? ?? ??? ?????.
- Lower precision: Fastertransformer??? FP16? BF16, INT8 ??? ??? ?? ?? ???? ??? ??? ?????. FP16? BF16, INT8? ?? ??? NVIDIA? ?? GPU(Volta ???? ??)?? TensorCore? ?? ??? ? ? ????. ??, Hopper GPU??? Transformer engine? ?? ?? ????? ??? ? ????.
KoGPT ??

??????? KoGPT? ??? ???? ???, ????? ???? ???? ??? ?? ??? ??? ?????. GPT-3 ?? ?? ??? KoGPT? ????, ??? ??? ???? ???? ????, ?? ?? ?? ?? ????, ??? ???, ?? ?? ???? ? ???? ??? ?? ??? ??? ? ????. ? ??? ??? ???? ?? ??, ?? ??, ??, ?? ?? ? ????? ?? ???? ??? ? ????.
KoGPT ? ??? FasterTransformer
??????? GPT-3 ?? ?? ??? KoGPT? ?????? ????. KoGPT? HuggingFace? ???? ???? ?????. ??? ??? ??? ???? ??? ??? ?? ???? ???? ???? ????? ??? ?? ??? ?????. ?? ??? ???? ???? ????? ?? ??? ??? ??????? ???? ?? ?? ???? ???? ??? ?? ??? ???? ??? ??????. ??????? GPT-3? ?? ??? ????? ???? ??? ?? ?????? ?? ?? ??? ?? ?????. ??? ? NVIDIA? FasterTransformer? ?????? ?? ??? ?? ?? ???? ?? ??? ? ?????. ?? ??? ??? ?? ?? ?? ?? ???? ????? V100 1 GPU?? ?? ???? ?? 4? (400%) ?? ?? ??? ???? ??? ? ?????. NVIDIA? FasterTransformer? ?? ???, ????? ???? ????, V100 4 GPU? ??? ?? ?? ??? ???? 11? (1100%) ?? ???? ??? ? ?????.

NVIDIA? FasterTransformer? ?? KoGPT? ??? ?? ? ???? ?? ??? ??? ?? ??? ? ???, ?????? ML Optimization ?? ??? ?????? ???? ? ?? ??? ??? ? ?? ???(TCO)? 15%?? ??? ? ?????.
??? ??????? ??? ?? LLM ?? KoGPT? ??? AI ?? KoChat GPT? ?? ? ???? ??? ?? ??? ??? ???.
? ???? ??? SDK? ???? ?? ???, ?? ???, ?? ??, ??, ?? ??, ???? NVIDIA ??? ???? ??? ??? ??? ??? ? ????. ?? ??? ???? NVIDIA? ?? ????? ???? ? ??? ??? ??? ?????? ???? ??? ??? ???.