• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • Generative AI / LLMs

    LLM ????? Mixture of Experts(MoE)? ????

    Reading Time: 7 minutes

    Mixture of Experts(MoE) ?? ?? ??(LLM) ????? ?? GPT-4? ?? ?? LLM? ?? Mixtral 8x7B? ?? ?? ??? ?? ???? ????? ???? ????. Mixtral ??? ??? ??? ???? ?? MoE? LLM ??????? ??? ?? ?? ??? ??? ??? ???????. ???? MoE? ???? ? ??? ?????

    MoE? ??? ??? ?? ??(?: ?? ???, MLP ?? attention projection)? ??? ?? ?? “???(expert)” ?? ????? ???? ???? ???? ?????. ??? ?? ????? ?? ????? ?? ??? ????, ? ??? ???? MoE ???? ?? ??? ?????. MoE ????? ?? ??? ?? ?? ???? ???? ???(dense) ?? ?? ??? ?? ??? ?? ??? ???? ???(sparse) ????? ? ? ????.

    ? ???? ?? LLM ??????? MoE ??? ??? ??? ????. ?? ???? MoE? ???? ??? ?? ??? ??? Sparse Mixture of Experts? ?? ????, ??? ASR ????? ?? Mixture of Expert Conformer ? FEDformer: ?? ??? ??? ?? ?? ?? ?? ?????(Frequency Enhanced Decomposed Transformer)? ?????.

    LLM ????? Mixture of Experts

    ? ????? ? ?? ?? ??? ???? LLM ?????? MoE? ??? ?? ??? ?????.

    ?? ??

    ?? ??? ??? ????? ??? ? ?? ??? ???? ??? ? ????. ????? ???? ?? ?? ??(??? ??? ??)? ????? ? ? ??? ?? ??? ???????.

    MoE? ??? ??? ?????? ????? ????? ?? ??? ? ? ??? ???, MoE ??? ??? ???? ??? ?? ????? ?? ???? ??? ??? MoE ???? ?????? ?? ??? ?? ??? ????? ?? ? ????.

    ????? ??? ?? ???? ??? ??? ??? ?? ??(fully dense) ??? ???? MoE ??? ???? ??????(?? ?? ??: EP ????? ??? MoE ??: E*P ????). ?? ?? ??? ????? ? ?? ??? ????, ?? ??? ??? ?? ?????. ??? ??? ???? ?? ??? ?? ???? ??? ?????.

    ???? ? ?? ??(dense) ??? ???? ??? ?? ??? ????. ??? ?? ?? ???(sparse) MoE, ?? ??? MoE? ???? ????? ?? ??? ? ??? ??? ????.

    ? ??? ?? ? ?? ???(expert)? ???? 8-???(expert) MoE? ???? ??? Mixtral 8x7B? ?? ???????. ? ??, ?? ??? ?? ??? ??? ???? ?? ??? ???? ????? ?? ?? ????(? 460? ?? ???? ? 120? ?? ???? ??). ??? 8?? ???? ?? ????? ??? ??? ?? ?? ??? ??? ??? ???? ? ?????. ?????? ??? ?? ????? ?? ??? ?, ?? ???? ????? ???? ??? ?????. ?, ? ???? ??? MoE? ?? ??? ??? ??? ?? ???? ??? ??? ? ?? ?????.

    GPU ??? ?? ?? ??? ???, ???? ?? ??? ??? ???? ?? ??? ?? ???? ??? ??? ?????. Meta? ??? Llama 2 ?? ??(?? ??)? ?? ??? 330? NVIDIA A100 GPU ??? ??? ??? ??????. ?? ??? ?? ?????, 1,024?? GPU? ???? ?? ?? ???? 330? GPU ??? ????? ? 134?? ?????. ?? ??, ??????? ??(sweeps) ?? ?? ??? ???? ?? ?????.

    ??? ???? ? ? ??? ???? MoE

    MoE ??? ???? ?? ??? ?? ??? ???? ? ??? ??, ?? ???? ??? ??? ??? ?? ???? ? ?? ??? ???? ??? ? ?? ??? ? ??? ?????. ????? ?? ??? ??? ????? ? ?? ??? ????? ?? ??? ?, ?? ????? ??? ???? ??? ???? ? ?? MoE ??? ??? ? ??? ?? ?????.

    ?? ?? ??? ???? MoE

    ??? ?? ??? ???? ??? ????? ???? MoE ????? ???? ? ?? ?? ?? ?? ??? ??? ? ????. ?? ?? ??(RAG) ? ?? ????? ?? ?? ????? ??? ?? ?? ??? ???? ?? ?? ?? ??? ??? ? ???? ?? ?? ??? ?? ?????.

    MoE ????? ??? ??????

    MoE ???? ? ?? ?? ?? ??? ????. ??, ??? ???? “???(expert)” ?? ?????, ???(dense)? ???(sparse) MoE ??? ?????. ??, ??? ???? ?? ???? ?? ??? ???? ???? ?? ???? ??? ???????. ??? ? ??? MoE? ?? ????? ??? ??? ?? ??? ???? ? ???? ??? ????? MoE? ??? ? ????. ??? MoE? ??? ??? ??????.

    ??? ?? ???? MoE ??? ????? ?? ?? ?? ????(MLP)? ?????. ? ?? ????? ?? ?? MLP? ????? ??? ??? MLP ?? ????? ????, ? ??? ?? ?? ??? ???? MLP MoE ??? ???? ?? ?????.

    ??? ??? MoE? ??? ????? ????? ?? ???? ??? ? ??? ???. ?? ?? SwitchHead: ??? ?? ????? ????? ???????? ??? ???? ??? ??? Q, K, V ??? ???? ?? ????? MoE? ??? ? ??? ?????. ?? ????? ??? ?? MoE ??? ??? ?? ??? ??? ?? ????? ????.

    ??? ????(?? ????)? ?? ??? ?? ? ?? ???? ????? ???? ? ?????. ??? ????? ??? ?? ???? ??? Mixture-of-Experts?? ??? ??? ??(?? ???? ?? ??? ?? ?? ??)?? ??? ??? ??? ? ????.

    ?? ??? ????? ?? ?? ???? ???? ?? ?? ??? ?? ??? ????? ?? ???? ?? ????? ?? ????? ? ?? ?? ??? ?? ?????. ??? ??? ????? ???? ?? ???? ?? ??? ??? ???? ? ????. ???? ??? ??? ??? ????? ??? ???? ?? ? ?? ??, ?? ??? ??? ????? ??? ?? ??? ????? ??? ? ????.

    ??? ?? ??? ????? ?? ???? ?? ???? ?? ??? ?????? ?? ???? ?????? ???????. Mixtral 8x7B? Top-K ????? ???? ??? ??????, ??? ?? ???? ??? Mixture-of-Expert? ?? ????? ?? ???? ???? ????? ??? ?? ??? ?????. ?? ?? ?? ??? ??? ? ????.

    Mixtral ?? ????

    ??? ? ???? ??? ????? ???, ??, ??? ?? ?? ?? ??? ?? ??? ???? ????, ??? ??, ??, ???, ??? ?? ?? ??? ??? ??? ??????

    ?? ?? Mixtral 8x7B ??? ???? ??? ??????. ? ???? 32?? ??? ????? ??? ???, ? MLP ???? 8?? ???? ??? ??? MoE ???? ????, ? ? ? ??? ?? ? ?? ??????. ?? ??? ? ??? ???(normalization layer)? ??? ??? ???? ?? ??? ?????.

    8x7B?? ??? ?? ? ???? ?? 70? ?? ????? ??? 8?? ?? ?? ?????? ??? ? ???, ? ??? ? 8?? ?? ???? ? ???? ?????? ??? ????? ?? ??? ??? ????(?? 1). ? ??? 8x7B = 56B ??? ?????.

    ?? 1. Mixtral 8x7B ??? ?? ??? ??

    ??? ??? ???? ????? ???, Mixtral 8x7B? ??? ??? ????. ?? ??? ?? 2? ?? ???, ? ??? 70? ?? ????? ?????. ??? ? ??(? ???? ? ??? ??? ???? ??)? 2x7B = 14B? ??? ? 129? ?? ?????? ????? ?? ?????. ??? ?? ????? ????? ?? ???? ?? 8x7B = 56B? ?? 470? ?? ?????.

    ?? 2. ???? Mixtral 8x7B ?? ????

    ??? ????? ???? ? ??? ??? ?? ??? ??? ??, ? ????? ? ???? ??? ??? \binom{8}{2} = 28????. Mixtral 8x7B?? 32?? ????? ??? ???? ????? ??? ?????? ? 28^{32}$???.

    ??? ????? ??? “??? ???”(??? ??? ???? ???)? ?????, ??? ???? ???? ??? ? ????? ????? 28^{32}? ?? ? ??(~2×10^{46})?, LLM? ???? ? ???? ?? ???(???? LLM? ?? ~3T~10T ??)?? ?? ?? ??? ??? ??????? ? ??? ???? ??? ?? ?? ????. ??? ?? ??? ??? ?? ? ?? ???? ????? ??? ??? ??? ????.

    ?? ??

    ??? ?? ??? ????? ?? ??(MMLU) ????? ?? ??? ??????. ???? ?? ???, ?? ??, ?? ??, ???, ???, ?? ?? ? ??? 57? ??? ?? ??? ??? ???? ????. ??? 8?? ??? ??? ?? ??-??? ??? ??? 1, 16, 32? ??????. ???? ??? ??, ? ?? ??? ?? ?? ??? ?????.

    ?? ???

    ?? ??? ??? ????? ??? ??? ???, ?? ???? ?? ???? ???(expert)? ?? ???? ?? ???? ????? ?? 40~60% ? ?? ??? ????.

    ?? 3. ?? MMLU ??? ?? ??? ?? ??

    ???-??? ??

    ?? ???? ?? ????? ?? ???? ? ?? ??????.

    ??? 32??? ??? 3? 8? ?? ????? ?? ? ?? ???? ?? ???? ?? ? ? ????.

    ?? 4. ?? ???? ??? 32 ???? ?? ?? ??

    ??? ??? ????? ??? 4? ??? ????? ????? ??? 3? 8? ???????.

    ?? 5. ?? ??? ?? ??? 32? ???? ?? ?? ??

    ?? ??? ? ?? ???? ??, ??? 7? ??? 8?? 5? ?? ?? ??? ???? ?? ?????.

    ?? 6. ?? ??? ?? ??? 32? ???? ?? ?? ??

    ?? 6. ?? ??? ?? ??? 32? ???? ?? ?? ??
    ??? ?? ??? ????? ?? ??? ??? ??? ?? ??? ??? ???? ?? ?????. ??? ??? ?? ?? ???? ?? ??, ??? ???? ?? ??? ? ????.

    ???(expert)?? ?? ???? ??

    ?? 7? ?? ????? ? ???? ?? ?? ??? ??? ?????.

    ?? 7. ???? ??? ?? ???? ??

    ???? ?? ???? ???

    ? ???? ???? ???? ???? ?? ??? ? ? ??? ? ???? ???? ??? ??? ?? ? ????.

    ?? “:”? ?? ??? ?? , ?? “:” ??? ?? 1?? ??? 1? 7? ???? ?? 32?? ??? 3? 8? ?????(?? 8). ?? 9, 10, 11? ??? ??? ?? ??? ??? ?????.

    ?? 8. ?? “:”? ?? ??? ??
    ?? 9. ?? “:”? ?? ??? ??
    ?? 10. ?? “??(what)”? ?? ??? ??
    ?? 11. ?? “??(who)”? ?? ??? ??

    ??

    MoE ??? ?? ?? ?? ???? ??? ??? ????? ??? ??? ??? ?? ????? ?? ???? ??? ?? MoE ??? ??? ? ????. ??? ??? ??? ???? ? ??? ?? ??? ?? ? ????. MoE ??? ?? ???? ?? ?? ???? ?? ?? ???? ???? ? ? ????. ????? ???? ??? ?? MoE? ?? ???? ????? ?? ?? ?????.

    ?? ????? ??? ???? ??? ??? ?? ???? ??? ???? ???????. ? ??? ?? ??? ?????? ???? ??? ? ?? ???? ??? ? ???, ?? ???? ??? ?? ???? ?? ?? ???? ???? ??? ??? ??? ????? ??? ?? ? ??? ?????. ?? ?? ??? ?? ?? ???? ?????.

    NVIDIA NGC ????? ?? Mixtral 8x7B Instruct? ?? AI ?? ??? ??? ? ? ????.

    ? ??? ???? ?????? NVIDIA GTC 2024? ?? ??? Mistral AI: ??? ???? AI? ??? ???.

    ?? ???

    GTC ??: LLM ??? ??, ???? ?? ???, ??? AI ??? ?? ????? ??? ??(Aivres ??)
    GTC ?? RAG ???? ??? ??? ?? ??(??: Aivres)
    GTC ?? ??? ?? ?? ??? ?? ????
    NGC ????: genai-llm-playground
    ??? ?? ?? ?? ????
    ??? ???? ?? AI ?? ???? ??? ???? ?????? LLM ?? ??? ??? ?? ????

    Discuss (0)
    +2

    Tags

    人人超碰97caoporen国产