Benchmark – NVIDIA 技術ブログ

NVIDIA TensorRT-LLM の KV Cache Early Reuseで、Time to First Token を 5 倍高速化

Fri, 08 Nov 2024 05:57:27 +0000

Reading Time: 2 minutes 以前のブログ記事では、key-value (KV) キャッシュを CPU メモリにオフロードして再利用することで、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を x86 ベースの NVIDIA H100 Tensor コア GPU で最大 14 倍、NVIDIA GH200 Superchip で最大 28 倍に高速化できる方法をご紹介しました。本記事では、KV キャッシュの再利用技術と、TTFT のさらなる高速化を実現するベストプラクティスについて解説します。 LLM モデルは、質問回答やコード生成など、多くのタスクで急速に採用されています。応答を生成するにあたり、これらのモデルはまず、ユーザーのプロンプトをトークンへ変換し、

Source

]]>

NVIDIA NeMo による最先端のマルチモーダル生成 AI モデル開発

Wed, 06 Nov 2024 12:55:44 +0000

Reading Time: 2 minutes 生成 AI は、テキストベースのモデルからマルチモーダル機能へと急速に進化しています。これらのモデルは、畫像のキャプション作成や視覚的な質問回答などのタスクを実行し、より人間に近い AI へとシフトしていることを反映しています。このコミュニティは現在、テキストや畫像から動畫へと拡大しており、さまざまな業界で新たな可能性を切り開かれています。動畫 AI モデルは、ロボティクス、自動車、小売などの業界に革命を起こそうとしています。ロボティクスでは、製造業や倉庫管理などの分野に不可欠な、複雑で変化し続ける環境における自律的なナビゲーションを強化しています。自動車業界では、動畫 AI が自動運転を推進し、車両の認識、安全性、予知保全を強化し、効率性を高めています。畫像や動畫の基盤モデルを構築するには、

Source

]]>

NVIDIA GH200 Superchip が、Llama モデルとのマルチターンインタラクションの推論を 2 倍高速化

Mon, 28 Oct 2024 07:26:00 +0000

Reading Time: 2 minutes 本番環境で大規模言語モデル (LLM) をデプロイする際に、ユーザーのインタラクティブ性の強化と、システムのスループット向上との間で難しいトレードオフを迫られることがよくあります。ユーザーのインタラクティブ性を強化するには、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を最小限に抑える必要がありますが、スループットを向上するには、1 秒あたりのトークン數を増やす必要があります。一方の側面を改善すると、もう一方の側面が悪化することが多いため、データセンター、クラウドサービスプロバイダー (CSP)、AI アプリケーションプロバイダーにとって、適切なバランスを見つけることが困難になっています。 NVIDIA GH200 Grace Hopper Superchip を活用すると、

Source

]]>

記録を塗り替え続ける NVIDIA cuOpt アルゴリズムがルート最適化ソリューションを 100 倍高速化

Wed, 20 Mar 2024 06:05:00 +0000

Reading Time: 3 minutes NVIDIA cuOpt は、複雑なルーティング問題を解決するための高速最適化エンジンです。休憩時間、待ち時間、車両の複數のコスト/時間マトリックス、複數の目標、注文と車両のマッチング、車両の開始位置と終了位置、車両の開始時間と終了時間など、さまざまな側面が含まれる問題を効率的に解決します。具體的には、cuOpt は 2 つの問題の複數のバリアントを解決します。CVRPTW (容量制約と時間枠のある配送計畫問題) と PDPTW (時間枠のある集荷と配達の問題) です。これらの問題の目的は、それぞれの注文において車両數と走行距離合計を最小限に抑えつつ、顧客の依頼にサービスを提供することです。 cuOpt は、SINTEF が検証した最大規模のルーティングベンチマークにおいて、過去 3 年間で、23…

Source

]]>

NVIDIA Spectrum-X に対する AI ネットワークパフォーマンスのベンチマークを Supermicro が提供

Thu, 22 Feb 2024 05:57:00 +0000

Reading Time: 2 minutes NVIDIA Spectrum-X はハイパースケールクラウドインフラの AI 向けに作られた最先端のネットワーキングプラットフォームとして腳光を浴びています。Spectrum-X ネットワーキングテクノロジは、企業のお客様が生成 AI ワークロードを高速化するのに役立ちます。NVIDIA は 2023 年 11 月のプレスリリースで、このプラットフォームの大幅な OEM 採用と、Spectrum-X を搭載した NVIDIA Israel-1 スーパーコンピューターのアップデートを発表しました。 NVIDIA は今回、Supermicro が Spectrum-X プラットフォームの OEM パートナーとして參加したことを発表しました。Spectrum-X は、4U、5U、8…

Source

]]>

NVIDIA TensorRT-LLM が NVIDIA H100 GPU 上で大規模言語モデル推論をさらに強化

Fri, 08 Sep 2023 01:18:36 +0000

Reading Time: 3 minutes 大規模言語モデルは驚くべき新機能を提供し、AI で実現できる領域を拡大しています。しかし、その大きなサイズと特有の実行特性は、費用対効果の高い方法で使用することを困難にすることがあります。 NVIDIA は、Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML (現在は Databricks の一部)、OctoML、ServiceNow、Tabnine、Together AI、Uber などの主要な企業と緊密に協力し、LLM の推論の高速化と最適化に取り組んできました。これらのイノベーションは、オープンソースの NVIDIA TensorRT-LLM ソフトウェアに統合され、Ampere、Lovelace、Hopper GPU に対応し、

Source

]]>

Benchmark – NVIDIA 技術ブログ

NVIDIA TensorRT-LLM の KV Cache Early Reuseで、Time to First Token を 5 倍高速化

NVIDIA NeMo による最先端のマルチモーダル生成 AI モデル開発

NVIDIA GH200 Superchip が、Llama モデルとのマルチターン インタラクションの推論を 2 倍高速化

記録を塗り替え続ける NVIDIA cuOpt アルゴリズムがルート最適化ソリューションを 100 倍高速化

NVIDIA Spectrum-X に対する AI ネットワーク パフォーマンスのベンチマークを Supermicro が提供

NVIDIA TensorRT-LLM が NVIDIA H100 GPU 上で大規模言語モデル推論をさらに強化

NVIDIA GH200 Superchip が、Llama モデルとのマルチターンインタラクションの推論を 2 倍高速化

NVIDIA Spectrum-X に対する AI ネットワークパフォーマンスのベンチマークを Supermicro が提供