Inference – NVIDIA 技術ブログ

NVIDIA TensorRT-LLM で大規模言語モデルの推論を最適化

Thu, 19 Oct 2023 02:08:00 +0000

Reading Time: 3 minutes NVIDIA は、NVIDIA GPU 上の最新の LLMの推論性能を高速化および最適化する TensorRT-LLM の一般提供を発表しました。このオープンソースライブラリは、現在、/NVIDIA/TensorRT-LLM GitHub レポジトリおよび NVIDIA NeMo フレームワークの一部として無料で提供されています。大規模言語モデル (LLM) は人工知能の分野に革命をもたらし、デジタルの世界と対話するまったく新しい方法を生み出しました。しかし、世界中の組織やアプリケーション開発者が LLM を業務に取り入れようとする中で、これらのモデルを実行する上でのいくつかの課題が明らかになってきています。簡単に言えば、LLM は巨大です。そのため、適切な技術がなければ、LLM の実行が遅くなり、

Source

]]>

NVIDIA TensorRT-LLM が NVIDIA H100 GPU 上で大規模言語モデル推論をさらに強化

Fri, 08 Sep 2023 01:18:36 +0000

Reading Time: 3 minutes 大規模言語モデルは驚くべき新機能を提供し、AI で実現できる領域を拡大しています。しかし、その大きなサイズと特有の実行特性は、費用対効果の高い方法で使用することを困難にすることがあります。 NVIDIA は、Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML (現在は Databricks の一部)、OctoML、ServiceNow、Tabnine、Together AI、Uber などの主要な企業と緊密に協力し、LLM の推論の高速化と最適化に取り組んできました。これらのイノベーションは、オープンソースの NVIDIA TensorRT-LLM ソフトウェアに統合され、Ampere、Lovelace、Hopper GPU に対応し、

Source

]]>

Triton Inference Server 2022 年 12 月 – 2023 年 2 月のリリース概要

Thu, 11 May 2023 03:41:36 +0000

Reading Time: 2 minutes 2022 年 12 月から 2023 年 2 月にかけてリリースされた Triton Inference Server の各機能などについて、概要をお屆けします。「Triton Inference Server って何?」という方は、以下の記事などをご確認ください。今回の期間中リリースされたリリースノートの本體は、それぞれ以下の通りです。各リリースには、以下の機能や変更が含まれていました。この期間で特筆すべきリリースは、dynamic batcher の挙動をカスタマイズ可能になった點と、Model Analyzer で ensemble model のサポートが入った點の 2 つです。 Dynamic batcher のカスタマイズは、その名の通り、

Source

]]>

NVIDIA FasterTransformer による KoGPT の推論高速化の向上

Tue, 25 Apr 2023 07:41:00 +0000

Reading Time: 2 minutes Transformer は、現在最も影響力のある AI モデルアーキテクチャの 1 つであり、將來の AI 研究開発の方向性を形作っています。自然言語処理 (NLP) のツールとして最初に発明された Transformer は、現在、コンピュータービジョン、自動音聲認識、分子構造分類、金融データ処理など、ほぼすべての AI タスクで使用されています。韓國では、Kakao Brain が Transformer アーキテクチャに基づいた高精度の大規模言語モデル (LLM)、KoGPT を開発しました。大規模な韓國のデータセットでトレーニングし、NVIDIA FasterTransformer を使用して最適化することに成功しました。この投稿では、NVIDIA と Kakao Brain が…

Source

]]>

アンサンブルモデルによる NVIDIA Triton Inference Server 上での ML モデルパイプラインのサービング

Mon, 13 Mar 2023 08:12:52 +0000

Reading Time: 5 minutes 多くの本番稼働レベルの機械學習 (ML: Macine Learning) アプリケーションでは、推論は単一 ML モデル上でフォワードパスを実行することに限定されません。代わりに、ML モデルのパイプラインを実行する必要があることが多いです。例えば、対話型 AI パイプラインは、入力された音聲波形をテキストに変換する自動音聲認識 (ASR: Automatic Speech Recognition) モジュール、入力を理解して適切な応答を提供する大規模言語モデル (LLM: Large Language Model) モジュール、LLM の出力から音聲を生成するテキスト読み上げ (TTS: text-to-speech) モジュールの 3 つから構成されています。また、テキストから畫像へ変換するアプリケーションでは、

Source

]]>

Triton Inference Server 2022 年 11 月のリリース概要

Tue, 20 Dec 2022 03:42:47 +0000

Reading Time: < 1 minute 2022 年 11 月末にリリースされた Triton Inference Server の各機能などについて、概要をお屆けします。「Triton Inference Server って何?」という方は、以下の記事などをご確認ください。リリースノート本體は https://github.com/triton-inference-server/server/releases/tag/v2.28.0 です。このリリースには以下の機能や改善などが含まれています。先月から引き続き、今回も更新が少なくなっております。次回も更新が同程度の少なさだった場合、この日本語によるリリース概要は 3 か月に一度程度に頻度を落とすかもしれません。 TensorRT 8.5 の新機能については、

Source

]]>

Triton Inference Server 2022 年 10 月のリリース概要

Tue, 29 Nov 2022 04:09:18 +0000

Reading Time: < 1 minute 2022 年 10 月末にリリースされた Triton Inference Server の各機能などについて、概要をお屆けします。「Triton Inference Server って何?」という方は、以下の記事などをご確認ください。リリースノート本體は https://github.com/triton-inference-server/server/releases/tag/v2.27.0 です。このリリースには以下の機能や改善などが含まれています。ご覧いただくとわかる通り、今回は (おそらく過去最大に) 更新が少なくなっております。一方、Server Wrapper API や Model Analyzer の改善のように、

Source

]]>

Triton Inference Server 2022 年 9 月のリリース概要

Tue, 08 Nov 2022 03:30:39 +0000

Reading Time: < 1 minute 2022 年 9 月末にリリースされた Triton Inference Server の各機能などについて、概要をお屆けします。「Triton Inference Server って何?」という方は、以下の記事などをご確認ください。リリースノート本體は https://github.com/triton-inference-server/server/releases/tag/v2.26.0 です。このリリースには以下の機能や改善などが含まれています。今月は全體的に細かい更新が多いですが、ログ操作周り、特に Python バックエンド內でのロギングが統合されたのは、地味ながら大きな変更ではないでしょうか。また、

Source

]]>

Triton Inference Server 2022 年 8 月のリリース概要

Mon, 03 Oct 2022 08:00:03 +0000

Reading Time: < 1 minute 今月も Triton Inference Server のリリース內容について、概要をお屆けします。「Triton Inference Server って何?」という方は、以下の記事などをご確認ください。リリースノート本體は https://github.com/triton-inference-server/server/releases/tag/v2.25.0 です。今月のリリースには以下の機能や改善などが含まれています。今月は細かい更新に加え、TensorFlow バックエンドのデフォルトバージョンが 2.x にアップグレードされた點と、PyTorch バックエンドの性能改善まわりが大きな変更でしょうか。また加えて、

Source

]]>

Triton Inference Server 2022 年 7 月のリリース概要

Thu, 01 Sep 2022 03:15:01 +0000

Reading Time: < 1 minute 今月も Triton Inference Server のリリース內容について、概要をお屆けします。「Triton Inference Server って何?」という方は、以下の記事などをご確認ください。リリースノート本體は https://github.com/triton-inference-server/server/releases/tag/v2.24.0 です。今月のリリースには以下の機能や改善などが含まれています。今月も、機能的に大きな追加はありませんでしたが、設定の自動補完に関するデフォルトの挙動が変わるため、これまでと若干動作が変わる可能性がある點は注意ポイントでしょうか。先月更新が入ったオプション関連の挙動ですが、

Source

]]>

Inference – NVIDIA 技術ブログ

NVIDIA TensorRT-LLM で大規模言語モデルの推論を最適化

NVIDIA TensorRT-LLM が NVIDIA H100 GPU 上で大規模言語モデル推論をさらに強化

Triton Inference Server 2022 年 12 月 – 2023 年 2 月のリリース概要

NVIDIA FasterTransformer による KoGPT の推論高速化の向上

アンサンブル モデルによる NVIDIA Triton Inference Server 上での ML モデル パイプラインのサービング

Triton Inference Server 2022 年 11 月のリリース概要

Triton Inference Server 2022 年 10 月のリリース概要

Triton Inference Server 2022 年 9 月のリリース概要

Triton Inference Server 2022 年 8 月のリリース概要

Triton Inference Server 2022 年 7 月のリリース概要

アンサンブルモデルによる NVIDIA Triton Inference Server 上での ML モデルパイプラインのサービング