AI Inference – NVIDIA 技術ブログ http://www.open-lab.net/ja-jp/blog Wed, 22 Jan 2025 06:17:35 +0000 ja hourly 1 NVIDIA TensorRT-LLM の KV Cache Early Reuseで、Time to First Token を 5 倍高速化 http://www.open-lab.net/ja-jp/blog/5x-faster-time-to-first-token-with-nvidia-tensorrt-llm-kv-cache-early-reuse/ Fri, 08 Nov 2024 05:57:27 +0000 http://www.open-lab.net/ja-jp/blog/?p=3095 Reading Time: 2 minutes 以前のブログ記事では、key-value (KV) キャッシュを CPU メモリにオフロードして再利用することで、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を x86 … Continued]]> Reading Time: 2 minutes 以前のブログ記事では、key-value (KV) キャッシュを CPU メモリにオフロードして再利用することで、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を x86 ベースの NVIDIA H100 Tensor コア GPU で最大 14 倍、NVIDIA GH200 Superchip で最大 28 倍に高速化できる方法をご紹介しました。本記事では、KV キャッシュの再利用技術と、TTFT のさらなる高速化を実現するベストプラクティスについて解説します。 LLM モデルは、質問回答やコード生成など、多くのタスクで急速に採用されています。応答を生成するにあたり、これらのモデルはまず、ユーザーのプロンプトをトークンへ変換し、

Source

]]>
3095
NVIDIA TensorRT-LLM による、LoRA LLM のチューニングとデプロイ http://www.open-lab.net/ja-jp/blog/tune-and-deploy-lora-llms-with-nvidia-tensorrt-llm/ Tue, 02 Apr 2024 04:35:31 +0000 http://www.open-lab.net/ja-jp/blog/?p=2602 Reading Time: 7 minutes 大規模言語モデル (LLM) は、膨大なテキストから學習し、さまざまなタスクや領域に合わせ、流暢で一貫したテキストを生成できることから、自然言語処理 (NLP) に革命を起こしました。ただし、LLM のカスタマイズは困難 … Continued]]> Reading Time: 7 minutes 大規模言語モデル (LLM) は、膨大なテキストから學習し、さまざまなタスクや領域に合わせ、流暢で一貫したテキストを生成できることから、自然言語処理 (NLP) に革命を起こしました。ただし、LLM のカスタマイズは困難な作業であり、多くの場合、完全なトレーニング プロセスを必要とし、時間と計算コストがかかります。さらに、LLM のトレーニングには多様かつ代表的なデータセットが必要であり、取得とキュレーションが困難な場合があります。 企業は、どうすれば完全なトレーニングにかかる費用を支払うことなく、LLM のパワーを活用できるでしょうか? 有望なソリューションの 1 つは Low-Rank Adaptation (LoRA) です。これは、トレーニング可能なパラメーターの數、メモリ要件、トレーニング時間を大幅に減らし、かつ、

Source

]]>
2602
NVIDIA GB200 NVL72 は兆単位パラメーターの LLM トレーニングとリアルタイム推論を実現 http://www.open-lab.net/ja-jp/blog/nvidia-gb200-nvl72-delivers-trillion-parameter-llm-training-and-real-time-inference/ Mon, 18 Mar 2024 08:45:26 +0000 http://www.open-lab.net/ja-jp/blog/?p=2454 Reading Time: 4 minutes 兆単位パラメーター モデルに対する関心とはどのようなものでしょう? 現在、多くの用途が知られており、また、以下のような能力の拡大が期待されているため、関心が高まっています。 メリットは大きいですが、大規模なモデルのトレー … Continued]]> Reading Time: 4 minutes 兆単位パラメーター モデルに対する関心とはどのようなものでしょう? 現在、多くの用途が知られており、また、以下のような能力の拡大が期待されているため、関心が高まっています。 メリットは大きいですが、大規模なモデルのトレーニングとデプロイは計算負荷が高く、リソースを大量に消費することがあります。計算効率、費用対効果、エネルギー効率に優れたシステムをリアルタイム推論用に設計することは、広範囲にわたるデプロイには不可欠です。新しい NVIDIA GB200 NVL72 はそのようなタスクに対応するシステムの 1 つです。 説明のために、Mixture of Experts (MoE) モデルを考えてみましょう。このモデルは、モデル並列処理とパイプライン並列処理を使用して、複數のエキスパートに計算負荷を分散し、

Source

]]>
2454
cuDLA による NVIDIA Jetson Orin 上での YOLOv5 の紹介 http://www.open-lab.net/ja-jp/blog/introducing-yolov5-on-nvidia-jetson-orin-with-cudla/ Wed, 17 Jan 2024 03:51:27 +0000 http://www.open-lab.net/ja-jp/blog/?p=2197 Reading Time: 5 minutes この投稿は、Orin プラットフォームを使用する組込み開発者が、YOLOv5 をリファレンスとして、どのようにディープ ニューラル ネットワーク (DNN) を展開できるかについて、技術的に深く掘り下げたものです。読者が … Continued]]> Reading Time: 5 minutes この投稿は、Orin プラットフォームを使用する組込み開発者が、YOLOv5 をリファレンスとして、どのようにディープ ニューラル ネットワーク (DNN) を展開できるかについて、技術的に深く掘り下げたものです。読者が簡単に理解できるように、次のセクション “NVIDIA DLA 紹介” で NVIDIA DLA を紹介し、セクション “NVIDIA cuDLA 紹介” で cuDLA と呼ばれる DLA 用の CUDA プログラミング モデル拡張を紹介します。そして最後の “YOLOv5 と cuDLA、Jetson Orin で共演” では、YOLOv5、DLA、cuDLA の組み合わせによる、Jetson Orin プラットフォーム上での効率的なオブジェクト検出実裝について詳しく説明します。 DLA の詳細については、

Source

]]>
2197
LLM テクニックの習得: 推論の最適化 http://www.open-lab.net/ja-jp/blog/mastering-llm-techniques-inference-optimization/ Fri, 17 Nov 2023 06:31:10 +0000 http://www.open-lab.net/ja-jp/blog/?p=2277 Reading Time: 6 minutes Transformer 層を積み重ねて大規模なモデルを作成すると、精度が向上し、Few-shot Learning 能力を獲得し、さらには幅広い言語タスクで人間に近い創発的な能力が得られます。これらの基盤モデルはトレーニ … Continued]]> Reading Time: 6 minutes Transformer 層を積み重ねて大規模なモデルを作成すると、精度が向上し、Few-shot Learning 能力を獲得し、さらには幅広い言語タスクで人間に近い創発的な能力が得られます。これらの基盤モデルはトレーニングにコストがかかり、推論中にメモリと計算を大量に消費する可能性があります (継続的にかかるコスト)。現在、最もポピュラーな大規模言語モデル (LLM)では、パラメーターのサイズは數百億から數千億に達することがあり、ユース ケースによっては長い入力 (またはコンテキスト) の取り込みが必要になる場合があり、これによって費用も増加する可能性があります。 この投稿では、LLM 推論における最も差し迫った課題と、いくつかの実用的な解決策について説明します。読者に、Transformer のアーキテクチャ、

Source

]]>
2277
人人超碰97caoporen国产