]]>3108AI-RAN が通信事業者向けに新しい AI のビジネス チャンスをもたらす
http://www.open-lab.net/ja-jp/blog/ai-ran-goes-live-and-unlocks-a-new-ai-opportunity-for-telcos/
Tue, 12 Nov 2024 08:30:39 +0000http://www.open-lab.net/ja-jp/blog/?p=3198Reading Time: 4minutes AI は、業界、企業、消費者の體験を新しい方法で変革しています。 生成 AI モデルは推論に移行し、 エージェント型 AI は新しい結果重視のワークフローを可能にしフィジカル AI により、カメラ、ロボット、ドローン、自 … Continued]]>Reading Time: 4 minutes AI は、業界、企業、消費者の體験を新しい方法で変革しています。 生成 AI モデルは推論に移行し、 エージェント型 AI は新しい結果重視のワークフローを可能にしフィジカル AI により、カメラ、ロボット、ドローン、自動車などのエンドポイントがリアルタイムで意思決定を行い、対話できるようになります。 これらのユース ケースに共通するのは、普及し、信頼性が高く、安全で、超高速な接続が必要であることです。 通信ネットワークは、フロントホール無線アクセス ネットワークを介して直接送信されるか、エンタープライズ アプリケーションによって生成されるパブリック クラウドまたはプライベート クラウドからのバックホールからの完全にスタンドアロンの AI 推論トラフィックのような新しい種類の AI トラフィックに備える必要があります。
]]>3198NVIDIA TensorRT-LLM の KV Cache Early Reuseで、Time to First Token を 5 倍高速化
http://www.open-lab.net/ja-jp/blog/5x-faster-time-to-first-token-with-nvidia-tensorrt-llm-kv-cache-early-reuse/
Fri, 08 Nov 2024 05:57:27 +0000http://www.open-lab.net/ja-jp/blog/?p=3095Reading Time: 2minutes 以前のブログ記事では、key-value (KV) キャッシュを CPU メモリにオフロードして再利用することで、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を x86 … Continued]]>Reading Time: 2 minutes 以前のブログ記事では、key-value (KV) キャッシュを CPU メモリにオフロードして再利用することで、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を x86 ベースの NVIDIA H100 Tensor コア GPU で最大 14 倍、NVIDIA GH200 Superchip で最大 28 倍に高速化できる方法をご紹介しました。本記事では、KV キャッシュの再利用技術と、TTFT のさらなる高速化を実現するベストプラクティスについて解説します。 LLM モデルは、質問回答やコード生成など、多くのタスクで急速に採用されています。応答を生成するにあたり、これらのモデルはまず、ユーザーのプロンプトをトークンへ変換し、
]]>2974NVIDIA NIM Operator で Kubernetes の AI 推論パイプラインを管理
http://www.open-lab.net/ja-jp/blog/managing-ai-inference-pipelines-on-kubernetes-with-nvidia-nim-operator/
Mon, 30 Sep 2024 04:10:52 +0000http://www.open-lab.net/ja-jp/blog/?p=2851Reading Time: 2minutes 開発者は、これは、クラウド、データ センター、クラウド、GPU により高速化されたワークステーションなど、あらゆる場所で市場投入までの時間を短縮し、生成 AI モデルのデプロイを簡素化することができる、使いやすいクラウド … Continued]]>Reading Time: 2 minutes 開発者は、これは、クラウド、データ センター、クラウド、GPU により高速化されたワークステーションなど、あらゆる場所で市場投入までの時間を短縮し、生成 AI モデルのデプロイを簡素化することができる、使いやすいクラウドネイティブのマイクロサービスである NVIDIA NIM マイクロサービスに大いに期待しています。 多様なユース ケースの要求に応えるため、NVIDIA は、NVIDIA NIM マイクロサービスとしてパッケージ化されたさまざまな AI モデルを市場に投入しており、生成 AI 推論ワークフローの主要な機能を実現しています。 通常の生成 AI アプリケーションでは、複數の異なる NIM マイクロサービスを統合しています。例えば、RAG パイプラインのマルチターン対話型 AI では、LLM、埋め込み、