Algorithms / Numerical Techniques – NVIDIA 技術ブログ
http://www.open-lab.net/ja-jp/blog
Mon, 27 May 2024 06:24:02 +0000
ja
hourly
1
-
VILA を使用した NVIDIA ハードウェア上のビジュアル言語モデル
http://www.open-lab.net/ja-jp/blog/visual-language-models-on-nvidia-hardware-with-vila/
Fri, 03 May 2024 05:37:14 +0000
http://www.open-lab.net/ja-jp/blog/?p=2517
Reading Time: 3 minutes ビジュアル言語モデルは、ここ最近大きく進化しました。ただし、既存のテクノロジは、通常、単一の畫像にしか対応していません。複數の畫像からの論理的な推論、コンテキスト學習への対応、動畫の理解は不可能です。また、推論速度も最適 … Continued]]>
Reading Time: 3 minutes ビジュアル言語モデルは、ここ最近大きく進化しました。ただし、既存のテクノロジは、通常、単一の畫像にしか対応していません。複數の畫像からの論理的な推論、コンテキスト學習への対応、動畫の理解は不可能です。また、推論速度も最適化されていません。 NVIDIA は VILA を開発しました。これは包括的な事前トレーニング、指示チューニング、デプロイ パイプラインを備えたビジュアル言語モデルであり、NVIDIA のクライアントがマルチモーダル製品で成功するのを支援します。VILA は畫像と動畫両方の QA ベンチマークで SOTA パフォーマンスを達成し、複數畫像における強力な論理推論能力とコンテキスト學習能力を備えています。また、推論速度も最適化されています。 他の VLM と比較するとトークンの使用量は 4 分の 1…
Source
]]>
2517
-
LLM アーキテクチャにおける Mixture of Experts の適用
http://www.open-lab.net/ja-jp/blog/applying-mixture-of-experts-in-llm-architectures/
Thu, 14 Mar 2024 02:16:40 +0000
http://www.open-lab.net/ja-jp/blog/?p=2361
Reading Time: 4 minutes Mixture of Experts (MoE) 大規模言語モデル (LLM) アーキテクチャは、GPT-4 などの商用の LLM と Mistral Mixtral 8x7B のオープン ソース リリースによりコミュニ … Continued]]>
Reading Time: 4 minutes Mixture of Experts (MoE) 大規模言語モデル (LLM) アーキテクチャは、GPT-4 などの商用の LLM と Mistral Mixtral 8x7B のオープン ソース リリースによりコミュニティ モデルの両方で最近登場しました。Mixtral モデルの強力な相対的性能は、MoE を LLM アーキテクチャでどのように使用できるのか、多くの関心と疑問を引き起こしました。では、MoE とは何であり、なぜそれが重要なのでしょうか? Mixture of Experts は、レイヤーまたは演算 (線形レイヤー、MLP、注意投影など) の計算を複數の「エキスパート」サブネットワークに分割するニューラル ネットワークのアーキテクチャ パターンです。こうしたサブネットワークはそれぞれの計算を獨立して実行し、
Source
]]>
2361
人人超碰97caoporen国产