Mixture of Experts(MoE) ?? ?? ??(LLM) ????? ?? GPT-4? ?? ?? LLM? ?? Mixtral 8x7B? ?? ?? ??? ?? ???? ????? ???? ????. Mixtral ??? ??? ??? ???? ?? MoE? LLM ??????? ??? ?? ?? ??? ??? ??? ???????. ???? MoE? ???? ? ??? ?????
MoE? ??? ??? ?? ??(?: ?? ???, MLP ?? attention projection)? ??? ?? ?? “???(expert)” ?? ????? ???? ???? ???? ?????. ??? ?? ????? ?? ????? ?? ??? ????, ? ??? ???? MoE ???? ?? ??? ?????. MoE ????? ?? ??? ?? ?? ???? ???? ???(dense) ?? ?? ??? ?? ??? ?? ??? ???? ???(sparse) ????? ? ? ????.
? ???? ?? LLM ??????? MoE ??? ??? ??? ????. ?? ???? MoE? ???? ??? ?? ??? ??? Sparse Mixture of Experts? ?? ????, ??? ASR ????? ?? Mixture of Expert Conformer ? FEDformer: ?? ??? ??? ?? ?? ?? ?? ?????(Frequency Enhanced Decomposed Transformer)? ?????.
LLM ????? Mixture of Experts
? ????? ? ?? ?? ??? ???? LLM ?????? MoE? ??? ?? ??? ?????.
?? ??
?? ??? ??? ????? ??? ? ?? ??? ???? ??? ? ????. ????? ???? ?? ?? ??(??? ??? ??)? ????? ? ? ??? ?? ??? ???????.
MoE? ??? ??? ?????? ????? ????? ?? ??? ? ? ??? ???, MoE ??? ??? ???? ??? ?? ????? ?? ???? ??? ??? MoE ???? ?????? ?? ??? ?? ??? ????? ?? ? ????.
????? ??? ?? ???? ??? ??? ??? ?? ??(fully dense) ??? ???? MoE ??? ???? ??????(?? ?? ??: EP ????? ??? MoE ??: E*P ????). ?? ?? ??? ????? ? ?? ??? ????, ?? ??? ??? ?? ?????. ??? ??? ???? ?? ??? ?? ???? ??? ?????.
???? ? ?? ??(dense) ??? ???? ??? ?? ??? ????. ??? ?? ?? ???(sparse) MoE, ?? ??? MoE? ???? ????? ?? ??? ? ??? ??? ????.
? ??? ?? ? ?? ???(expert)? ???? 8-???(expert) MoE? ???? ??? Mixtral 8x7B? ?? ???????. ? ??, ?? ??? ?? ??? ??? ???? ?? ??? ???? ????? ?? ?? ????(? 460? ?? ???? ? 120? ?? ???? ??). ??? 8?? ???? ?? ????? ??? ??? ?? ?? ??? ??? ??? ???? ? ?????. ?????? ??? ?? ????? ?? ??? ?, ?? ???? ????? ???? ??? ?????. ?, ? ???? ??? MoE? ?? ??? ??? ??? ?? ???? ??? ??? ? ?? ?????.
GPU ??? ?? ?? ??? ???, ???? ?? ??? ??? ???? ?? ??? ?? ???? ??? ??? ?????. Meta? ??? Llama 2 ?? ??(?? ??)? ?? ??? 330? NVIDIA A100 GPU ??? ??? ??? ??????. ?? ??? ?? ?????, 1,024?? GPU? ???? ?? ?? ???? 330? GPU ??? ????? ? 134?? ?????. ?? ??, ??????? ??(sweeps) ?? ?? ??? ???? ?? ?????.
??? ???? ? ? ??? ???? MoE
MoE ??? ???? ?? ??? ?? ??? ???? ? ??? ??, ?? ???? ??? ??? ??? ?? ???? ? ?? ??? ???? ??? ? ?? ??? ? ??? ?????. ????? ?? ??? ??? ????? ? ?? ??? ????? ?? ??? ?, ?? ????? ??? ???? ??? ???? ? ?? MoE ??? ??? ? ??? ?? ?????.
?? ?? ??? ???? MoE
??? ?? ??? ???? ??? ????? ???? MoE ????? ???? ? ?? ?? ?? ?? ??? ??? ? ????. ?? ?? ??(RAG) ? ?? ????? ?? ?? ????? ??? ?? ?? ??? ???? ?? ?? ?? ??? ??? ? ???? ?? ?? ??? ?? ?????.
MoE ????? ??? ??????
MoE ???? ? ?? ?? ?? ??? ????. ??, ??? ???? “???(expert)” ?? ?????, ???(dense)? ???(sparse) MoE ??? ?????. ??, ??? ???? ?? ???? ?? ??? ???? ???? ?? ???? ??? ???????. ??? ? ??? MoE? ?? ????? ??? ??? ?? ??? ???? ? ???? ??? ????? MoE? ??? ? ????. ??? MoE? ??? ??? ??????.
??? ?? ???? MoE ??? ????? ?? ?? ?? ????(MLP)? ?????. ? ?? ????? ?? ?? MLP? ????? ??? ??? MLP ?? ????? ????, ? ??? ?? ?? ??? ???? MLP MoE ??? ???? ?? ?????.
??? ??? MoE? ??? ????? ????? ?? ???? ??? ? ??? ???. ?? ?? SwitchHead: ??? ?? ????? ????? ???????? ??? ???? ??? ??? Q, K, V ??? ???? ?? ????? MoE? ??? ? ??? ?????. ?? ????? ??? ?? MoE ??? ??? ?? ??? ??? ?? ????? ????.
??? ????(?? ????)? ?? ??? ?? ? ?? ???? ????? ???? ? ?????. ??? ????? ??? ?? ???? ??? Mixture-of-Experts?? ??? ??? ??(?? ???? ?? ??? ?? ?? ??)?? ??? ??? ??? ? ????.
?? ??? ????? ?? ?? ???? ???? ?? ?? ??? ?? ??? ????? ?? ???? ?? ????? ?? ????? ? ?? ?? ??? ?? ?????. ??? ??? ????? ???? ?? ???? ?? ??? ??? ???? ? ????. ???? ??? ??? ??? ????? ??? ???? ?? ? ?? ??, ?? ??? ??? ????? ??? ?? ??? ????? ??? ? ????.
??? ?? ??? ????? ?? ???? ?? ???? ?? ??? ?????? ?? ???? ?????? ???????. Mixtral 8x7B? Top-K ????? ???? ??? ??????, ??? ?? ???? ??? Mixture-of-Expert? ?? ????? ?? ???? ???? ????? ??? ?? ??? ?????. ?? ?? ?? ??? ??? ? ????.
Mixtral ?? ????
??? ? ???? ??? ????? ???, ??, ??? ?? ?? ?? ??? ?? ??? ???? ????, ??? ??, ??, ???, ??? ?? ?? ??? ??? ??? ??????
?? ?? Mixtral 8x7B ??? ???? ??? ??????. ? ???? 32?? ??? ????? ??? ???, ? MLP ???? 8?? ???? ??? ??? MoE ???? ????, ? ? ? ??? ?? ? ?? ??????. ?? ??? ? ??? ???(normalization layer)? ??? ??? ???? ?? ??? ?????.
8x7B?? ??? ?? ? ???? ?? 70? ?? ????? ??? 8?? ?? ?? ?????? ??? ? ???, ? ??? ? 8?? ?? ???? ? ???? ?????? ??? ????? ?? ??? ??? ????(?? 1). ? ??? 8x7B = 56B ??? ?????.

??? ??? ???? ????? ???, Mixtral 8x7B? ??? ??? ????. ?? ??? ?? 2? ?? ???, ? ??? 70? ?? ????? ?????. ??? ? ??(? ???? ? ??? ??? ???? ??)? 2x7B = 14B? ??? ? 129? ?? ?????? ????? ?? ?????. ??? ?? ????? ????? ?? ???? ?? 8x7B = 56B? ?? 470? ?? ?????.

??? ????? ???? ? ??? ??? ?? ??? ??? ??, ? ????? ? ???? ??? ??? \binom{8}{2} = 28????. Mixtral 8x7B?? 32?? ????? ??? ???? ????? ??? ?????? ? 28^{32}$???.
??? ????? ??? “??? ???”(??? ??? ???? ???)? ?????, ??? ???? ???? ??? ? ????? ????? 28^{32}? ?? ? ??(~2×10^{46})?, LLM? ???? ? ???? ?? ???(???? LLM? ?? ~3T~10T ??)?? ?? ?? ??? ??? ??????? ? ??? ???? ??? ?? ?? ????. ??? ?? ??? ??? ?? ? ?? ???? ????? ??? ??? ??? ????.
?? ??
??? ?? ??? ????? ?? ??(MMLU) ????? ?? ??? ??????. ???? ?? ???, ?? ??, ?? ??, ???, ???, ?? ?? ? ??? 57? ??? ?? ??? ??? ???? ????. ??? 8?? ??? ??? ?? ??-??? ??? ??? 1, 16, 32? ??????. ???? ??? ??, ? ?? ??? ?? ?? ??? ?????.
?? ???
?? ??? ??? ????? ??? ??? ???, ?? ???? ?? ???? ???(expert)? ?? ???? ?? ???? ????? ?? 40~60% ? ?? ??? ????.

???-??? ??
?? ???? ?? ????? ?? ???? ? ?? ??????.
??? 32??? ??? 3? 8? ?? ????? ?? ? ?? ???? ?? ???? ?? ? ? ????.

??? ??? ????? ??? 4? ??? ????? ????? ??? 3? 8? ???????.

?? ??? ? ?? ???? ??, ??? 7? ??? 8?? 5? ?? ?? ??? ???? ?? ?????.

?? 6. ?? ??? ?? ??? 32? ???? ?? ?? ??
??? ?? ??? ????? ?? ??? ??? ??? ?? ??? ??? ???? ?? ?????. ??? ??? ?? ?? ???? ?? ??, ??? ???? ?? ??? ? ????.
???(expert)?? ?? ???? ??
?? 7? ?? ????? ? ???? ?? ?? ??? ??? ?????.

???? ?? ???? ???
? ???? ???? ???? ???? ?? ??? ? ? ??? ? ???? ???? ??? ??? ?? ? ????.
?? “:”? ?? ??? ?? , ?? “:” ??? ?? 1?? ??? 1? 7? ???? ?? 32?? ??? 3? 8? ?????(?? 8). ?? 9, 10, 11? ??? ??? ?? ??? ??? ?????.




??
MoE ??? ?? ?? ?? ???? ??? ??? ????? ??? ??? ??? ?? ????? ?? ???? ??? ?? MoE ??? ??? ? ????. ??? ??? ??? ???? ? ??? ?? ??? ?? ? ????. MoE ??? ?? ???? ?? ?? ???? ?? ?? ???? ???? ? ? ????. ????? ???? ??? ?? MoE? ?? ???? ????? ?? ?? ?????.
?? ????? ??? ???? ??? ??? ?? ???? ??? ???? ???????. ? ??? ?? ??? ?????? ???? ??? ? ?? ???? ??? ? ???, ?? ???? ??? ?? ???? ?? ?? ???? ???? ??? ??? ??? ????? ??? ?? ? ??? ?????. ?? ?? ??? ?? ?? ???? ?????.
NVIDIA NGC ????? ?? Mixtral 8x7B Instruct? ?? AI ?? ??? ??? ? ? ????.
? ??? ???? ?????? NVIDIA GTC 2024? ?? ??? Mistral AI: ??? ???? AI? ??? ???.
?? ???
GTC ??: LLM ??? ??, ???? ?? ???, ??? AI ??? ?? ????? ??? ??(Aivres ??)
GTC ?? RAG ???? ??? ??? ?? ??(??: Aivres)
GTC ?? ??? ?? ?? ??? ?? ????
NGC ????: genai-llm-playground
??? ?? ?? ?? ????
??? ???? ?? AI ?? ???? ??? ???? ?????? LLM ?? ??? ??? ?? ????