Benchmark – NVIDIA 技術ブログ
http://www.open-lab.net/ja-jp/blog
Wed, 22 Jan 2025 06:17:35 +0000
ja
hourly
1
-
NVIDIA TensorRT-LLM の KV Cache Early Reuseで、Time to First Token を 5 倍高速化
http://www.open-lab.net/ja-jp/blog/5x-faster-time-to-first-token-with-nvidia-tensorrt-llm-kv-cache-early-reuse/
Fri, 08 Nov 2024 05:57:27 +0000
http://www.open-lab.net/ja-jp/blog/?p=3095
Reading Time: 2 minutes 以前のブログ記事では、key-value (KV) キャッシュを CPU メモリにオフロードして再利用することで、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を x86 … Continued ]]>
Reading Time: 2 minutes 以前のブログ記事では、key-value (KV) キャッシュを CPU メモリにオフロードして再利用することで、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を x86 ベースの NVIDIA H100 Tensor コア GPU で最大 14 倍、NVIDIA GH200 Superchip で最大 28 倍に高速化できる方法をご紹介しました。本記事では、KV キャッシュの再利用技術と、TTFT のさらなる高速化を実現するベストプラクティスについて解説します。 LLM モデルは、質問回答やコード生成など、多くのタスクで急速に採用されています。応答を生成するにあたり、これらのモデルはまず、ユーザーのプロンプトをトークンへ変換し、
Source
]]>
3095
-
NVIDIA NeMo による最先端のマルチモーダル生成 AI モデル開発
http://www.open-lab.net/ja-jp/blog/state-of-the-art-multimodal-generative-ai-model-development-with-nvidia-nemo/
Wed, 06 Nov 2024 12:55:44 +0000
http://www.open-lab.net/ja-jp/blog/?p=3068
Reading Time: 2 minutes 生成 AI は、テキストベースのモデルからマルチモーダル機能へと急速に進化しています。これらのモデルは、畫像のキャプション作成や視覚的な質問回答などのタスクを実行し、より人間に近い AI へとシフトしていることを反映して … Continued ]]>
Reading Time: 2 minutes 生成 AI は、テキストベースのモデルからマルチモーダル機能へと急速に進化しています。これらのモデルは、畫像のキャプション作成や視覚的な質問回答などのタスクを実行し、より人間に近い AI へとシフトしていることを反映しています。このコミュニティは現在、テキストや畫像から動畫へと拡大しており、さまざまな業界で新たな可能性を切り開かれています。 動畫 AI モデルは、ロボティクス、自動車、小売などの業界に革命を起こそうとしています。ロボティクスでは、製造業や倉庫管理などの分野に不可欠な、複雑で変化し続ける環境における自律的なナビゲーションを強化しています。自動車業界では、動畫 AI が自動運転を推進し、車両の認識、安全性、予知保全を強化し、効率性を高めています。 畫像や動畫の基盤モデルを構築するには、
Source
]]>
3068
-
NVIDIA GH200 Superchip が、Llama モデルとのマルチターン インタラクションの推論を 2 倍高速化
http://www.open-lab.net/ja-jp/blog/nvidia-gh200-superchip-accelerates-inference-by-2x-in-multiturn-interactions-with-llama-models/
Mon, 28 Oct 2024 07:26:00 +0000
http://www.open-lab.net/ja-jp/blog/?p=3009
Reading Time: 2 minutes 本番環境で大規模言語モデル (LLM) をデプロイする際に、ユーザーのインタラクティブ性の強化と、システムのスループット向上との間で難しいトレードオフを迫られることがよくあります。ユーザーのインタラクティブ性を強化するに … Continued ]]>
Reading Time: 2 minutes 本番環境で大規模言語モデル (LLM) をデプロイする際に、ユーザーのインタラクティブ性の強化と、システムのスループット向上との間で難しいトレードオフを迫られることがよくあります。ユーザーのインタラクティブ性を強化するには、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を最小限に抑える必要がありますが、スループットを向上するには、1 秒あたりのトークン數を増やす必要があります。一方の側面を改善すると、もう一方の側面が悪化することが多いため、データ センター、クラウド サービス プロバイダー (CSP)、AI アプリケーション プロバイダーにとって、適切なバランスを見つけることが困難になっています。 NVIDIA GH200 Grace Hopper Superchip を活用すると、
Source
]]>
3009
-
記録を塗り替え続ける NVIDIA cuOpt アルゴリズムがルート最適化ソリューションを 100 倍高速化
http://www.open-lab.net/ja-jp/blog/record-breaking-nvidia-cuopt-algorithms-deliver-route-optimization-solutions-100x-faster/
Wed, 20 Mar 2024 06:05:00 +0000
http://www.open-lab.net/ja-jp/blog/?p=2693
Reading Time: 3 minutes NVIDIA cuOpt は、複雑なルーティング問題を解決するための高速最適化エンジンです。休憩時間、待ち時間、車両の複數のコスト/時間マトリックス、複數の目標、注文と車両のマッチング、車両の開始位置と終了位置、車両の開 … Continued ]]>
Reading Time: 3 minutes NVIDIA cuOpt は、複雑なルーティング問題を解決するための高速最適化エンジンです。休憩時間、待ち時間、車両の複數のコスト/時間マトリックス、複數の目標、注文と車両のマッチング、車両の開始位置と終了位置、車両の開始時間と終了時間など、さまざまな側面が含まれる問題を効率的に解決します。 具體的には、cuOpt は 2 つの問題の複數のバリアントを解決します。CVRPTW (容量制約と時間枠のある配送計畫問題) と PDPTW (時間枠のある集荷と配達の問題) です。これらの問題の目的は、それぞれの注文において車両數と走行距離合計を最小限に抑えつつ、顧客の依頼にサービスを提供することです。 cuOpt は、SINTEF が検証した最大規模のルーティング ベンチマークにおいて、過去 3 年間で、23…
Source
]]>
2693
-
NVIDIA Spectrum-X に対する AI ネットワーク パフォーマンスのベンチマークを Supermicro が提供
http://www.open-lab.net/ja-jp/blog/benchmarking-nvidia-spectrum-x-for-ai-network-performance-now-available-from-supermicro/
Thu, 22 Feb 2024 05:57:00 +0000
http://www.open-lab.net/ja-jp/blog/?p=2438
Reading Time: 2 minutes NVIDIA Spectrum-X はハイパースケール クラウド インフラの AI 向けに作られた最先端のネットワーキング プラットフォームとして腳光を浴びています。Spectrum-X ネットワーキング テクノロジは、 … Continued ]]>
Reading Time: 2 minutes NVIDIA Spectrum-X はハイパースケール クラウド インフラの AI 向けに作られた最先端のネットワーキング プラットフォームとして腳光を浴びています。Spectrum-X ネットワーキング テクノロジは、企業のお客様が生成 AI ワークロードを高速化するのに役立ちます。NVIDIA は 2023 年 11 月のプレス リリースで、このプラットフォームの大幅な OEM 採用と、Spectrum-X を搭載した NVIDIA Israel-1 スーパーコンピューターのアップデートを発表しました。 NVIDIA は今回、Supermicro が Spectrum-X プラットフォームの OEM パートナーとして參加したことを発表しました。Spectrum-X は、4U、5U、8…
Source
]]>
2438
-
NVIDIA TensorRT-LLM が NVIDIA H100 GPU 上で大規模言語モデル推論をさらに強化
http://www.open-lab.net/ja-jp/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/
Fri, 08 Sep 2023 01:18:36 +0000
http://www.open-lab.net/ja-jp/blog/?p=2019
Reading Time: 3 minutes 大規模言語モデルは驚くべき新機能を提供し、AI で実現できる領域を拡大しています。しかし、その大きなサイズと特有の実行特性は、費用対効果の高い方法で使用することを困難にすることがあります。 NVIDIA は、Meta、A … Continued ]]>
Reading Time: 3 minutes 大規模言語モデルは驚くべき新機能を提供し、AI で実現できる領域を拡大しています。しかし、その大きなサイズと特有の実行特性は、費用対効果の高い方法で使用することを困難にすることがあります。 NVIDIA は、Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML (現在は Databricks の一部)、OctoML、ServiceNow、Tabnine、Together AI、Uber などの主要な企業と緊密に協力し、LLM の推論の高速化と最適化に取り組んできました。 これらのイノベーションは、オープンソースの NVIDIA TensorRT-LLM ソフトウェアに統合され、Ampere、Lovelace、Hopper GPU に対応し、
Source
]]>
2019
人人超碰97caoporen国产