TensorRT – NVIDIA 技術ブログ
http://www.open-lab.net/ja-jp/blog
Wed, 22 Jan 2025 06:17:35 +0000
ja
hourly
1
-
NVIDIA TensorRT-LLM の KV Cache Early Reuseで、Time to First Token を 5 倍高速化
http://www.open-lab.net/ja-jp/blog/5x-faster-time-to-first-token-with-nvidia-tensorrt-llm-kv-cache-early-reuse/
Fri, 08 Nov 2024 05:57:27 +0000
http://www.open-lab.net/ja-jp/blog/?p=3095
Reading Time: 2 minutes 以前のブログ記事では、key-value (KV) キャッシュを CPU メモリにオフロードして再利用することで、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を x86 … Continued]]>
Reading Time: 2 minutes 以前のブログ記事では、key-value (KV) キャッシュを CPU メモリにオフロードして再利用することで、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を x86 ベースの NVIDIA H100 Tensor コア GPU で最大 14 倍、NVIDIA GH200 Superchip で最大 28 倍に高速化できる方法をご紹介しました。本記事では、KV キャッシュの再利用技術と、TTFT のさらなる高速化を実現するベストプラクティスについて解説します。 LLM モデルは、質問回答やコード生成など、多くのタスクで急速に採用されています。応答を生成するにあたり、これらのモデルはまず、ユーザーのプロンプトをトークンへ変換し、
Source
]]>
3095
-
高速化された Llama 3.2 をエッジからクラウドへデプロイする
http://www.open-lab.net/ja-jp/blog/deploying-accelerated-llama-3-2-from-the-edge-to-the-cloud/
Wed, 25 Sep 2024 08:25:00 +0000
http://www.open-lab.net/ja-jp/blog/?p=2896
Reading Time: 2 minutes オープンソースの Meta Llama モデルのコレクションを拡張した Llama 3.2 コレクションには、視覚言語モデル (VLM)、小規模言語モデル (SLM)、ビジョンのサポートが追加された Llama Guar … Continued]]>
Reading Time: 2 minutes オープンソースの Meta Llama モデルのコレクションを拡張した Llama 3.2 コレクションには、視覚言語モデル (VLM)、小規模言語モデル (SLM)、ビジョンのサポートが追加された Llama Guard モデルが含まれています。NVIDIA のアクセラレーテッド コンピューティング プラットフォームと組み合わせることで、Llama 3.2 は開発者、研究者、企業に、生成 AI のユース ケースを実現するための有益な新機能と最適化を提供します。 NVIDIA H100 Tensor コア GPU でトレーニングされた 1B および 3B サイズの SLM は、エッジ デバイスに Llama ベースの AI アシスタントを展開するのに最適です。11B および 90B サイズの VLM は、
Source
]]>
2896
-
NVIDIA TensorRT-LLM による、LoRA LLM のチューニングとデプロイ
http://www.open-lab.net/ja-jp/blog/tune-and-deploy-lora-llms-with-nvidia-tensorrt-llm/
Tue, 02 Apr 2024 04:35:31 +0000
http://www.open-lab.net/ja-jp/blog/?p=2602
Reading Time: 7 minutes 大規模言語モデル (LLM) は、膨大なテキストから學習し、さまざまなタスクや領域に合わせ、流暢で一貫したテキストを生成できることから、自然言語処理 (NLP) に革命を起こしました。ただし、LLM のカスタマイズは困難 … Continued]]>
Reading Time: 7 minutes 大規模言語モデル (LLM) は、膨大なテキストから學習し、さまざまなタスクや領域に合わせ、流暢で一貫したテキストを生成できることから、自然言語処理 (NLP) に革命を起こしました。ただし、LLM のカスタマイズは困難な作業であり、多くの場合、完全なトレーニング プロセスを必要とし、時間と計算コストがかかります。さらに、LLM のトレーニングには多様かつ代表的なデータセットが必要であり、取得とキュレーションが困難な場合があります。 企業は、どうすれば完全なトレーニングにかかる費用を支払うことなく、LLM のパワーを活用できるでしょうか? 有望なソリューションの 1 つは Low-Rank Adaptation (LoRA) です。これは、トレーニング可能なパラメーターの數、メモリ要件、トレーニング時間を大幅に減らし、かつ、
Source
]]>
2602
-
NVIDIA NeMo Retriever で企業データを実用的なインサイトに変える
http://www.open-lab.net/ja-jp/blog/translate-your-enterprise-data-into-actionable-insights-with-nvidia-nemo-retriever/
Mon, 18 Mar 2024 05:44:42 +0000
http://www.open-lab.net/ja-jp/blog/?p=2591
Reading Time: 2 minutes あらゆる業界や業務で、生成 AI が組織內の可能性を引き出し、データを知識に変え、従業員がより効率的に働けるようにしています。? 正確で関連性のある情報は、データに基づく意思決定のために重要です。このため、企業はビジネス … Continued]]>
Reading Time: 2 minutes あらゆる業界や業務で、生成 AI が組織內の可能性を引き出し、データを知識に変え、従業員がより効率的に働けるようにしています。 正確で関連性のある情報は、データに基づく意思決定のために重要です。このため、企業はビジネス データの保存、インデックス作成、アクセスの方法を改善するために投資を続けています。 IDC Global DataSphere Forecast 2023 によると、2024 年には、企業固有のデータが 11 ゼタバイト生成されると言われています。企業が生成する固有のデータの量は 2027 年までに 20 ゼタバイトになると予測されており、そのうち、83% は構造化されておらず、半分は音聲と動畫になるとのことです。2027 年に生成される非構造化データの量は、約 80 萬館の議會図書館に相當します。
Source
]]>
2591
-
cuDLA による NVIDIA Jetson Orin 上での YOLOv5 の紹介
http://www.open-lab.net/ja-jp/blog/introducing-yolov5-on-nvidia-jetson-orin-with-cudla/
Wed, 17 Jan 2024 03:51:27 +0000
http://www.open-lab.net/ja-jp/blog/?p=2197
Reading Time: 5 minutes この投稿は、Orin プラットフォームを使用する組込み開発者が、YOLOv5 をリファレンスとして、どのようにディープ ニューラル ネットワーク (DNN) を展開できるかについて、技術的に深く掘り下げたものです。読者が … Continued]]>
Reading Time: 5 minutes この投稿は、Orin プラットフォームを使用する組込み開発者が、YOLOv5 をリファレンスとして、どのようにディープ ニューラル ネットワーク (DNN) を展開できるかについて、技術的に深く掘り下げたものです。読者が簡単に理解できるように、次のセクション “NVIDIA DLA 紹介” で NVIDIA DLA を紹介し、セクション “NVIDIA cuDLA 紹介” で cuDLA と呼ばれる DLA 用の CUDA プログラミング モデル拡張を紹介します。そして最後の “YOLOv5 と cuDLA、Jetson Orin で共演” では、YOLOv5、DLA、cuDLA の組み合わせによる、Jetson Orin プラットフォーム上での効率的なオブジェクト検出実裝について詳しく説明します。 DLA の詳細については、
Source
]]>
2197
-
LLM テクニックの習得: 推論の最適化
http://www.open-lab.net/ja-jp/blog/mastering-llm-techniques-inference-optimization/
Fri, 17 Nov 2023 06:31:10 +0000
http://www.open-lab.net/ja-jp/blog/?p=2277
Reading Time: 6 minutes Transformer 層を積み重ねて大規模なモデルを作成すると、精度が向上し、Few-shot Learning 能力を獲得し、さらには幅広い言語タスクで人間に近い創発的な能力が得られます。これらの基盤モデルはトレーニ … Continued]]>
Reading Time: 6 minutes Transformer 層を積み重ねて大規模なモデルを作成すると、精度が向上し、Few-shot Learning 能力を獲得し、さらには幅広い言語タスクで人間に近い創発的な能力が得られます。これらの基盤モデルはトレーニングにコストがかかり、推論中にメモリと計算を大量に消費する可能性があります (継続的にかかるコスト)。現在、最もポピュラーな大規模言語モデル (LLM)では、パラメーターのサイズは數百億から數千億に達することがあり、ユース ケースによっては長い入力 (またはコンテキスト) の取り込みが必要になる場合があり、これによって費用も増加する可能性があります。 この投稿では、LLM 推論における最も差し迫った課題と、いくつかの実用的な解決策について説明します。読者に、Transformer のアーキテクチャ、
Source
]]>
2277
-
企業ソリューション向け大規模言語モデル (LLM) を始める
http://www.open-lab.net/ja-jp/blog/getting-started-with-large-language-models-for-enterprise-solutions/
Tue, 07 Nov 2023 07:07:59 +0000
http://www.open-lab.net/ja-jp/blog/?p=2187
Reading Time: 3 minutes 大規模言語モデル (LLM: Large :Language Models) は、數千億のパラメーターを持つインターネット規模のデータセットで學習されるディープラーニングのアルゴリズムです。LLM は、読み、書き、コーデ … Continued]]>
Reading Time: 3 minutes 大規模言語モデル (LLM: Large :Language Models) は、數千億のパラメーターを持つインターネット規模のデータセットで學習されるディープラーニングのアルゴリズムです。LLM は、読み、書き、コーディング、描畫、そして人間の創造性を補強することで、様々な業界の生産性を向上させ、世界で最も困難な問題を解決することができます。 LLM は、小売業から醫療まで幅広い業界で、幅広い業務に使用されています。LLM は、科學者が命を救う畫期的なワクチンを開発するのに役立つ、新しい化合物を生成するための、タンパク質配列の言語を學習します。LLM は、ソフトウェア プログラマが自然言語の記述に基づいてコードを生成し、バグを修正するのを助けます。そして、人間が最も得意とすること、すなわち創造、質問、理解など、
Source
]]>
2187
-
NVIDIA TensorRT-LLM で大規模言語モデルの推論を最適化
http://www.open-lab.net/ja-jp/blog/optimizing-inference-on-llms-with-tensorrt-llm-now-publicly-available/
Thu, 19 Oct 2023 02:08:00 +0000
http://www.open-lab.net/ja-jp/blog/?p=2176
Reading Time: 3 minutes NVIDIA は、NVIDIA GPU 上の最新の LLMの推論性能を高速化および最適化する TensorRT-LLM の一般提供を発表しました。このオープンソース ライブラリは、現在、/NVIDIA/TensorRT- … Continued]]>
Reading Time: 3 minutes NVIDIA は、NVIDIA GPU 上の最新の LLMの推論性能を高速化および最適化する TensorRT-LLM の一般提供を発表しました。このオープンソース ライブラリは、現在、/NVIDIA/TensorRT-LLM GitHub レポジトリおよび NVIDIA NeMo フレームワークの一部として無料で提供されています。 大規模言語モデル (LLM) は人工知能の分野に革命をもたらし、デジタルの世界と対話するまったく新しい方法を生み出しました。しかし、世界中の組織やアプリケーション開発者が LLM を業務に取り入れようとする中で、これらのモデルを実行する上でのいくつかの課題が明らかになってきています。 簡単に言えば、LLM は巨大です。そのため、適切な技術がなければ、LLM の実行が遅くなり、
Source
]]>
2176
-
後編: TREx による TensorRT 化した Stable Diffusion モデルの解析
http://www.open-lab.net/ja-jp/blog/analysis-of-tensorrt-stable-diffusion-model-by-trex/
Mon, 11 Sep 2023 05:44:31 +0000
http://www.open-lab.net/ja-jp/blog/?p=1945
Reading Time: 5 minutes 前回の記事で Stable Diffusion モデルの TensorRT Engine 化を行ったので、今回は TensorRT 化したモデルをモデル可視化ツールである trt-engine-explorer (TRE … Continued]]>
Reading Time: 5 minutes 前回の記事で Stable Diffusion モデルの TensorRT Engine 化を行ったので、今回は TensorRT 化したモデルをモデル可視化ツールである trt-engine-explorer (TREx) を用いて解析してみます。モデルの解析しボトルネックを見つけることで、さらなる速度の改善やメモリ消費の改善などに繋がります。 TREx の詳細についてはこちらの記事も併せてご確認下さい。 trt-engine-explorer (TREx) のリポジトリから release-8.6 のバージョンのコードを取得し使用します。TREx はこちらの手順に沿ってインストールしてください。 3 つのモデルが TensorRT Engine 化されているので、
Source
]]>
1945
-
前編: Stable Diffusion を TensorRT で GPU 推論を數倍高速化
http://www.open-lab.net/ja-jp/blog/accelerating-stable-diffusion-inference-with-tensorrt/
Mon, 11 Sep 2023 05:41:48 +0000
http://www.open-lab.net/ja-jp/blog/?p=1931
Reading Time: 3 minutes Stable diffusion は畫像生成、畫像編集、畫像変換など畫像における多様な処理ができるモデルです。高品質な畫像を生成できるのですが、仕組み上、推論に時間がかかってしまいます。そこで GPU での推論速度向上を … Continued]]>
Reading Time: 3 minutes Stable diffusion は畫像生成、畫像編集、畫像変換など畫像における多様な処理ができるモデルです。高品質な畫像を生成できるのですが、仕組み上、推論に時間がかかってしまいます。そこで GPU での推論速度向上を行うために TensorRT を用いた Stable diffusion の高速化を試みました。著者の環境では約 7.68 倍程度の高速化が達成できました。 本稿では Hugging Face で提供されている Stable diffusion モデルを対象とします。Stable Diffusionではメモリ消費や計算リソース効率化の為に Latent Diffusion Model が採用されています。このモデルは RGB 畫像 (ピクセル空間) を潛在空間にマッピングしてから拡散処理を行うため、
Source
]]>
1931
人人超碰97caoporen国产