VILA を使用した NVIDIA ハードウェア上のビジュアル言語モデル

Fri, 03 May 2024 05:37:14 +0000

Reading Time: 3 minutes ビジュアル言語モデルは、ここ最近大きく進化しました。ただし、既存のテクノロジは、通常、単一の畫像にしか対応していません。複數の畫像からの論理的な推論、コンテキスト學習への対応、動畫の理解は不可能です。また、推論速度も最適化されていません。 NVIDIA は VILA を開発しました。これは包括的な事前トレーニング、指示チューニング、デプロイパイプラインを備えたビジュアル言語モデルであり、NVIDIA のクライアントがマルチモーダル製品で成功するのを支援します。VILA は畫像と動畫両方の QA ベンチマークで SOTA パフォーマンスを達成し、複數畫像における強力な論理推論能力とコンテキスト學習能力を備えています。また、推論速度も最適化されています。他の VLM と比較するとトークンの使用量は 4 分の 1…

Source

]]>

LLM アーキテクチャにおける Mixture of Experts の適用

Thu, 14 Mar 2024 02:16:40 +0000

Reading Time: 4 minutes Mixture of Experts (MoE) 大規模言語モデル (LLM) アーキテクチャは、GPT-4 などの商用の LLM と Mistral Mixtral 8x7B のオープンソースリリースによりコミュニティモデルの両方で最近登場しました。Mixtral モデルの強力な相対的性能は、MoE を LLM アーキテクチャでどのように使用できるのか、多くの関心と疑問を引き起こしました。では、MoE とは何であり、なぜそれが重要なのでしょうか? Mixture of Experts は、レイヤーまたは演算 (線形レイヤー、MLP、注意投影など) の計算を複數の「エキスパート」サブネットワークに分割するニューラルネットワークのアーキテクチャパターンです。こうしたサブネットワークはそれぞれの計算を獨立して実行し、

Source

]]>

Algorithms / Numerical Techniques – NVIDIA 技術ブログ

VILA を使用した NVIDIA ハードウェア上のビジュアル言語モデル

LLM アーキテクチャにおける Mixture of Experts の適用