graph neural networks – NVIDIA 技術ブログ

LLM アーキテクチャにおける Mixture of Experts の適用

Thu, 14 Mar 2024 02:16:40 +0000

Reading Time: 4 minutes Mixture of Experts (MoE) 大規模言語モデル (LLM) アーキテクチャは、GPT-4 などの商用の LLM と Mistral Mixtral 8x7B のオープンソースリリースによりコミュニティモデルの両方で最近登場しました。Mixtral モデルの強力な相対的性能は、MoE を LLM アーキテクチャでどのように使用できるのか、多くの関心と疑問を引き起こしました。では、MoE とは何であり、なぜそれが重要なのでしょうか? Mixture of Experts は、レイヤーまたは演算 (線形レイヤー、MLP、注意投影など) の計算を複數の「エキスパート」サブネットワークに分割するニューラルネットワークのアーキテクチャパターンです。こうしたサブネットワークはそれぞれの計算を獨立して実行し、

Source

]]>

グラフニューラルネットワークによる物理を考慮した機械學習モデルの開発

Tue, 06 Jun 2023 05:41:00 +0000

Reading Time: 2 minutes NVIDIA PhysicsNeMo は、物理を考慮した機械學習 (physics-ML) モデルとして知られる物理的システムのディープラーニングモデルの構築、トレーニング、ファインチューニングを行うためのフレームワークです。PhysicsNeMo は OSS (Apache 2.0 ライセンス) として提供され、成長する physics-ML コミュニティをサポートしています。 PhysicsNeMo の最新ソフトウェアアップデートであるバージョン 23.05 は、新機能をまとめ、研究コミュニティと産業界がオープンソースのコラボレーションを通じて研究をエンタープライズ品質のソリューションに発展させることを可能にします。今回のアップデートでは、1) グラフニューラルネットワーク (GNN) やリカレント…

Source

]]>

graph neural networks – NVIDIA 技術ブログ

LLM アーキテクチャにおける Mixture of Experts の適用

グラフ ニューラル ネットワークによる物理を考慮した機械學習モデルの開発

グラフニューラルネットワークによる物理を考慮した機械學習モデルの開発