NVIDIA NeMo による最先端のマルチモーダル生成 AI モデル開発

Reading Time: 2 minutes

生成 AI は、テキストベースのモデルからマルチモーダル機能へと急速に進化しています。これらのモデルは、畫像のキャプション作成や視覚的な質問回答などのタスクを実行し、より人間に近い AI へとシフトしていることを反映しています。このコミュニティは現在、テキストや畫像から動畫へと拡大しており、さまざまな業界で新たな可能性を切り開かれています。

動畫 AI モデルは、ロボティクス、自動車、小売などの業界に革命を起こそうとしています。ロボティクスでは、製造業や倉庫管理などの分野に不可欠な、複雑で変化し続ける環境における自律的なナビゲーションを強化しています。自動車業界では、動畫 AI が自動運転を推進し、車両の認識、安全性、予知保全を強化し、効率性を高めています。

畫像や動畫の基盤モデルを構築するには、開発者は大量の學習データのキュレーションと事前処理を行い、結果として得られた高品質データを高い忠実度でトークン化し、學習済みモデルを効率的に大規模に學習またはカスタマイズして、推論中に高品質な畫像や動畫を生成する必要があります。

マルチモーダル生成 AI 向けの NVIDIA NeMo を発表

NVIDIA NeMo は、生成 AI モデルを開発、カスタマイズ、デプロイするエンドツーエンドのプラットフォームです。

NVIDIA は、マルチモーダルモデル開発向けのエンドツーエンドのパイプラインをサポートする NeMo の拡張を発表しました。NeMo により、高品質な視覚データを簡単にキュレーションし、高効率なトークナイザーと並列処理技術で學習とカスタマイズを加速し、推論中に高品質なビジュアルを再構築することができます。

動畫と畫像データのキュレーションを加速

高品質な學習データでは、AI モデルから高精度な結果が得られます。しかし、開発者は、データ処理パイプラインの構築において、スケーリングからデータのオーケストレーションまで、さまざまな課題に直面しています。

NeMo Curator は、データキュレーションプロセスを合理化することで、マルチモーダル生成 AI モデルをより簡単かつ迅速に構築することができます。すぐに試すことができるため、総保有コスト (TCO) を最小限に抑え、市場投入までの時間を短縮します。

ビジュアルを扱う際には、組織はペタバイト規模のデータ処理を容易に実行できます。NeMo Curator は、データキュレーションの各段階で複數の GPU に負荷分散できるオーケストレーションパイプラインを提供します。その結果、単純な GPU ベースの実裝と比較して、動畫処理時間を 7 分の 1 に短縮できます。スケール可能なパイプラインは、100 PB を超えるデータを効率的に処理でき、大規模なデータセットをシームレスに取り扱うことができます。

NeMo Curator は、高いスループットのフィルタリング、キャプション作成、埋め込みの各段階に最適化されたリファレンスビデオキュレーションモデルを提供し、データセットの品質を向上させ、より正確な AI モデルの作成をサポートします。

たとえば、NeMo Curator は、最適化されたキャプションモデルを使用し、最適化されていない推論モデルの実裝と比較して、桁違いのスループットの向上を実現します。

NVIDIA Cosmos トークナイザー

トークナイザーは、冗長的で暗黙的な視覚データをコンパクトで意味のあるトークンにマッピングし、大規模な生成モデルの効率的な學習を実現し、誰もが限られた計算リソースで推論できるようにします。

今日のオープンな動畫や畫像のトークナイザーは、データ表現が不十分なことが多いため、劣化の多い再構築、歪んだ畫像、不連続な動畫につながり、トークナイザー上に構築された生成モデルの能力に限界をもたらします。トークン化プロセスが非効率なため、エンコードやデコードに時間がかかり、學習や推論の時間が長くなり、開発者の生産性とユーザー體験の両方に悪影響を及ぼします。

NVIDIA Cosmos トークナイザーは、優れた視覚トークン化を提供するオープンなモデルで、さまざまな畫像や動畫のカテゴリーで、高い圧縮率と最先端の再構築品質を実現します。

離散的な潛在コードを備えた視覚言語モデル (VLM: Vision-language Model)、連続した潛在的埋め込みによる拡散モデル、さまざまなアスペクト比や解像度をサポートする一連のトークナイザー標準化モデルを使用して、これらのトークナイザーを簡単に使用でき、高解像度の畫像や動畫を効率的に管理することができます。これにより、畫像や動畫 AI モデルを構築するために、幅広い視覚入力データをトークン化するツールが提供されます。

Cosmos トークナイザーのアーキテクチャ

Cosmos トークナイザーは、高効率かつ効果的な學習向けに設計されており、高度なエンコーダー / デコーダー構造を使用しています。その中核には 3D Causal Convolution Block (因果畳み込みブロック) を採用しています。これは時空間情報を共同処理する特殊なレイヤーで、データの長期的な依存関係を捉える Causal Temporal Attention (因果的時間注意機構) を使用しています。

この因果構造により、トークン化の実行時にモデルが過去と現在のフレームのみを使用し、未來のフレームは使用しません。これは、物理的なAIやマルチモーダルLLMなどの多くの現実世界のシステムの因果性に合わせるために重要です。

入力は、ピクセル情報をより効率的に表す信號処理技術である 3D ウェーブレットを使用してダウンサンプリングされます。データ処理後、逆ウェーベレット変換によって元の入力が再構築されます。

このアプローチにより、學習効率が向上し、トークナイザーのエンコーダー / デコーダーの學習可能なモジュールは、冗長なピクセルの詳細ではなく、意味のある特徴に焦點を當てることができます。このような技術と獨自の學習レシピの組み合わせにより、Cosmos トークナイザーは、効率的かつ強力なトークン化を実現する最先端のアーキテクチャとなっています。

推論の際、Cosmos トークナイザーは、主要なオープンウェイトのトークナイザーと比較して最大 12 倍高速な再構築を実現し、モデルの実行コストを大幅に削減しました (図 3)。