おすすめ – NVIDIA 技術ブログ http://www.open-lab.net/ja-jp/blog Thu, 20 Feb 2025 08:46:11 +0000 ja hourly 1 Hymba ハイブリッド ヘッド アーキテクチャが小規模言語モデルのパフォーマンスを向上 http://www.open-lab.net/ja-jp/blog/hymba-hybrid-head-architecture-boosts-small-language-model-performance/ Fri, 22 Nov 2024 08:01:01 +0000 http://www.open-lab.net/ja-jp/blog/?p=3108 Reading Time: 4 minutes Transformer は、その Attention ベースのアーキテクチャによる、強力なパフォーマンス、並列化能力、および KV (Key-Value) キャッシュを通じた長期記憶のおかげで、言語モデル (LM) の主 … Continued]]> Reading Time: 4 minutes Transformer は、その Attention ベースのアーキテクチャによる、強力なパフォーマンス、並列化能力、および KV (Key-Value) キャッシュを通じた長期記憶のおかげで、言語モデル (LM) の主流となっています。しかし、二次計算コストと高いメモリ要求により、効率性に課題が生じています。これに対し、Mamba や Mamba-2 のような狀態空間モデル (SSMs) は、複雑さを一定にして効率的なハードウェア最適化を提供しますが、メモリ想起タスクが苦手でそれは一般的なベンチマークでのパフォーマンスに影響を與えています。 NVIDIA の研究者は最近、効率性とパフォーマンスの両方を向上させるために、Transformer の Attention メカニズムを SSM と統合したハイブリッド…

Source

]]>
3108
AI-RAN が通信事業者向けに新しい AI のビジネス チャンスをもたらす http://www.open-lab.net/ja-jp/blog/ai-ran-goes-live-and-unlocks-a-new-ai-opportunity-for-telcos/ Tue, 12 Nov 2024 08:30:39 +0000 http://www.open-lab.net/ja-jp/blog/?p=3198 Reading Time: 4 minutes AI は、業界、企業、消費者の體験を新しい方法で変革しています。 生成 AI モデルは推論に移行し、 エージェント型 AI は新しい結果重視のワークフローを可能にしフィジカル AI により、カメラ、ロボット、ドローン、自 … Continued]]> Reading Time: 4 minutes AI は、業界、企業、消費者の體験を新しい方法で変革しています。 生成 AI モデルは推論に移行し、 エージェント型 AI は新しい結果重視のワークフローを可能にしフィジカル AI により、カメラ、ロボット、ドローン、自動車などのエンドポイントがリアルタイムで意思決定を行い、対話できるようになります。 これらのユース ケースに共通するのは、普及し、信頼性が高く、安全で、超高速な接続が必要であることです。 通信ネットワークは、フロントホール無線アクセス ネットワークを介して直接送信されるか、エンタープライズ アプリケーションによって生成されるパブリック クラウドまたはプライベート クラウドからのバックホールからの完全にスタンドアロンの AI 推論トラフィックのような新しい種類の AI トラフィックに備える必要があります。

Source

]]>
3198
NVIDIA TensorRT-LLM の KV Cache Early Reuseで、Time to First Token を 5 倍高速化 http://www.open-lab.net/ja-jp/blog/5x-faster-time-to-first-token-with-nvidia-tensorrt-llm-kv-cache-early-reuse/ Fri, 08 Nov 2024 05:57:27 +0000 http://www.open-lab.net/ja-jp/blog/?p=3095 Reading Time: 2 minutes 以前のブログ記事では、key-value (KV) キャッシュを CPU メモリにオフロードして再利用することで、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を x86 … Continued]]> Reading Time: 2 minutes 以前のブログ記事では、key-value (KV) キャッシュを CPU メモリにオフロードして再利用することで、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を x86 ベースの NVIDIA H100 Tensor コア GPU で最大 14 倍、NVIDIA GH200 Superchip で最大 28 倍に高速化できる方法をご紹介しました。本記事では、KV キャッシュの再利用技術と、TTFT のさらなる高速化を実現するベストプラクティスについて解説します。 LLM モデルは、質問回答やコード生成など、多くのタスクで急速に採用されています。応答を生成するにあたり、これらのモデルはまず、ユーザーのプロンプトをトークンへ変換し、

Source

]]>
3095
NVIDIA NIM によるマルチモーダル ビジュアル AI エージェントの構築 http://www.open-lab.net/ja-jp/blog/build-multimodal-visual-ai-agents-powered-by-nvidia-nim/ Thu, 31 Oct 2024 08:46:59 +0000 http://www.open-lab.net/ja-jp/blog/?p=2986 Reading Time: 3 minutes 畫像から PDF、ストリーミング動畫に至るまで、ビジュアル データが指數関數的に急増しているため、手動によるレビューと分析は事実上不可能になっています。企業は、このデータを大規模に実用的な洞察に変えるのに苦労しており、そ … Continued]]> Reading Time: 3 minutes 畫像から PDF、ストリーミング動畫に至るまで、ビジュアル データが指數関數的に急増しているため、手動によるレビューと分析は事実上不可能になっています。企業は、このデータを大規模に実用的な洞察に変えるのに苦労しており、その結果、機會逸失やリスクの増大につながっています。 この課題を解決するために、畫像や動畫の視覚認識とテキストベースの推論を組み合わせた強力なツールとして、ビジョン言語モデル (VLM) が登場しています。テキストのみを処理する従來の大規模言語モデル (LLM) とは異なり、VLM は複雑なマルチモーダル データを理解し、それに基づいて行動するビジュアル AI エージェントを構築できるため、リアルタイムの意思決定と自動化が可能になります。 リモート カメラの映像を解析して山火事の初期兆候を検出したり、

Source

]]>
2986
LLM のモデル マージのご紹介 http://www.open-lab.net/ja-jp/blog/an-introduction-to-model-merging-for-llms/ Mon, 28 Oct 2024 05:25:33 +0000 http://www.open-lab.net/ja-jp/blog/?p=3121 Reading Time: 2 minutes 大規模言語モデル (LLM) をカスタマイズする際に、組織が直面する課題の 1 つは、複數の実験を実行する必要があるのに、その結果得られるのは 1 つの有用なモデルのみということです。 実験にかかるコストは通常低く、労力 … Continued]]> Reading Time: 2 minutes 大規模言語モデル (LLM) をカスタマイズする際に、組織が直面する課題の 1 つは、複數の実験を実行する必要があるのに、その結果得られるのは 1 つの有用なモデルのみということです。 実験にかかるコストは通常低く、労力に見合う成果が得られるものの、この実験プロセスには、実験に割り當てされてるけど使用率の低いまたは、全く稼働していない計算機や専任の開発者が費やす時間など、「無駄な」リソースが含まれます。 モデル マージは、複數のカスタマイズされた LLM の重みを組み合わせることで、リソースの利用率を高め、成功したモデルに付加価値を加えます。 このアプローチは、2 つの重要なソリューションを提供します。 本投稿では、モデルがどのようにカスタマイズされるのか、モデル マージがどのように機能するのか、

Source

]]>
3121
通信會社に AI-RAN を提供 http://www.open-lab.net/ja-jp/blog/bringing-ai-ran-to-a-telco-near-you/ Tue, 08 Oct 2024 08:40:56 +0000 http://www.open-lab.net/ja-jp/blog/?p=3185 Reading Time: 5 minutes 生成 AI と AI エージェントの推論により、エッジからセントラル クラウドまで AI コンピューティング インフラストラクチャを分散する必要性が高まります。 IDC は、「ビジネス AI (消費者を除く) は、203 … Continued]]> Reading Time: 5 minutes 生成 AI と AI エージェントの推論により、エッジからセントラル クラウドまで AI コンピューティング インフラストラクチャを分散する必要性が高まります。 IDC は、「ビジネス AI (消費者を除く) は、2030 年までに世界経済に 19.9 兆ドルの貢獻をし、GDP の 3.5% を占めるようになる」と予測しています。 5G ネットワークも、この新しい AI トラフィックに対応するために進化しなければなりません。 同時に、通信事業者には、データのプライバシーと主権の要件を満たしながら、ネットワーク接続に依存せずにエンタープライズ AI ワークロードをホストするためのローカル AI コンピューティング インフラストラクチャになる機會があります。 ここで、

Source

]]>
3185
NVIDIA cuOpt で大規模な線形計畫問題を加速する http://www.open-lab.net/ja-jp/blog/accelerate-large-linear-programming-problems-with-nvidia-cuopt/ Tue, 08 Oct 2024 07:57:00 +0000 http://www.open-lab.net/ja-jp/blog/?p=2974 Reading Time: 3 minutes 線形計畫法 (LP: Linear Programming) ソルバーの進化は、シンプレックス法から內點法 (IPM: Interior Point Method) まで、過去 1 世紀にわたってに重要な節目で特徴づけら … Continued]]> Reading Time: 3 minutes 線形計畫法 (LP: Linear Programming) ソルバーの進化は、シンプレックス法から內點法 (IPM: Interior Point Method) まで、過去 1 世紀にわたってに重要な節目で特徴づけられてきました。主雙対線形計畫法 (PDLP: Primal-dual Linear Programming) の導入は、さらなる大きな進歩をもたらしました。 NVIDIA cuOpt は現在、GPU アクセラレーションで PDLP を実裝しています。最先端のアルゴリズム、NVIDIA ハードウェア、専用の CUDA 機能、NVIDIA GPU ライブラリを使用して、cuOpt LP ソルバーは、CPU ベースのソルバーと比較して 5,000 倍以上の高速パフォーマンスを実現しています。 この投稿では、

Source

]]>
2974
NVIDIA NIM Operator で Kubernetes の AI 推論パイプラインを管理 http://www.open-lab.net/ja-jp/blog/managing-ai-inference-pipelines-on-kubernetes-with-nvidia-nim-operator/ Mon, 30 Sep 2024 04:10:52 +0000 http://www.open-lab.net/ja-jp/blog/?p=2851 Reading Time: 2 minutes 開発者は、これは、クラウド、データ センター、クラウド、GPU により高速化されたワークステーションなど、あらゆる場所で市場投入までの時間を短縮し、生成 AI モデルのデプロイを簡素化することができる、使いやすいクラウド … Continued]]> Reading Time: 2 minutes 開発者は、これは、クラウド、データ センター、クラウド、GPU により高速化されたワークステーションなど、あらゆる場所で市場投入までの時間を短縮し、生成 AI モデルのデプロイを簡素化することができる、使いやすいクラウドネイティブのマイクロサービスである NVIDIA NIM マイクロサービスに大いに期待しています。 多様なユース ケースの要求に応えるため、NVIDIA は、NVIDIA NIM マイクロサービスとしてパッケージ化されたさまざまな AI モデルを市場に投入しており、生成 AI 推論ワークフローの主要な機能を実現しています。 通常の生成 AI アプリケーションでは、複數の異なる NIM マイクロサービスを統合しています。例えば、RAG パイプラインのマルチターン対話型 AI では、LLM、埋め込み、

Source

]]>
2851
高速化された Llama 3.2 をエッジからクラウドへデプロイする http://www.open-lab.net/ja-jp/blog/deploying-accelerated-llama-3-2-from-the-edge-to-the-cloud/ Wed, 25 Sep 2024 08:25:00 +0000 http://www.open-lab.net/ja-jp/blog/?p=2896 Reading Time: 2 minutes オープンソースの Meta Llama モデルのコレクションを拡張した Llama 3.2 コレクションには、視覚言語モデル (VLM)、小規模言語モデル (SLM)、ビジョンのサポートが追加された Llama Guar … Continued]]> Reading Time: 2 minutes オープンソースの Meta Llama モデルのコレクションを拡張した Llama 3.2 コレクションには、視覚言語モデル (VLM)、小規模言語モデル (SLM)、ビジョンのサポートが追加された Llama Guard モデルが含まれています。NVIDIA のアクセラレーテッド コンピューティング プラットフォームと組み合わせることで、Llama 3.2 は開発者、研究者、企業に、生成 AI のユース ケースを実現するための有益な新機能と最適化を提供します。 NVIDIA H100 Tensor コア GPU でトレーニングされた 1B および 3B サイズの SLM は、エッジ デバイスに Llama ベースの AI アシスタントを展開するのに最適です。11B および 90B サイズの VLM は、

Source

]]>
2896
Llama-3.1-Nemotron-51B による精度と効率の前進 http://www.open-lab.net/ja-jp/blog/advancing-the-accuracy-efficiency-frontier-with-llama-3-1-nemotron-51b/ Mon, 23 Sep 2024 04:36:00 +0000 http://www.open-lab.net/ja-jp/blog/?p=2919 Reading Time: 3 minutes 本日、NVIDIA は、比類のない精度と効率を実現する獨自の言語モデルを発表しました。 Llama 3.1-Nemotron-51B は、 Meta の Llama-3.1-70B の派生モデルであり、新しい Neura … Continued]]> Reading Time: 3 minutes 本日、NVIDIA は、比類のない精度と効率を実現する獨自の言語モデルを発表しました。 Llama 3.1-Nemotron-51B は、 Meta の Llama-3.1-70B の派生モデルであり、新しい Neural Architecture Search (NAS) アプローチによって、高精度かつ効率的なモデルとなっています。 このモデルは高負荷のワークロードでもひとつの NVIDIA H100 GPU に収まるため、より利用しやすく、かつ価格が手頃なモデルとなっています。モデルのアーキテクチャを変更することで、このモデルは精度と効率性の優れたバランスを保っており、高い精度を維持しながら、メモリ使用量やメモリ帯域幅、FLOPs が大幅に削減されています。このアプローチは、

Source

]]>
2919
人人超碰97caoporen国产