Reading Time: < 1 minute

2022 年 9 月末にリリースされた Triton Inference Server の各機能などについて、概要をお屆けします。「Triton Inference Server って何?」という方は、以下の記事などをご確認ください。

GPU に推論を: Triton Inference Server でかんたんデプロイ
NVIDIA Triton Inference Server を使用したエッジでの AI モデルの展開の簡素化

What’s New in 2.26.0 (NGC 22.09)

リリースノート本體は https://github.com/triton-inference-server/server/releases/tag/v2.26.0 です。このリリースには以下の機能や改善などが含まれています。

Triton Core ライブラリとの連攜を容易にするための Developer Tools が新しくできました (ベータ)
Metrics に CPU 関連の情報が追加されました
動的にログ設定を変更するインターフェイスとして logging protocol extension が追加されました
TensorRT バックエンド利用時、LD_PRELOAD に加えてコマンドラインオプション経由でも、カスタムプラグインを指定できるようになりました
OpenVINO バックエンドで、設定の自動補完を有効化できるようになりました
Python バックエンド內でのログ出力が、Triton のログ機構に統合されました
Model Analyzer に quick search のためのアルゴリズムが追加されました
Perf Analyzer に GPU metrics の収集機能が追加されました

今月は全體的に細かい更新が多いですが、ログ操作周り、特に Python バックエンド內でのロギングが統合されたのは、地味ながら大きな変更ではないでしょうか。また、Triton Core ライブラリとの連攜を容易にするための Developer Tools も、獨自のスタンドアロンアプリケーションに Triton の機能を組み込みたい場合に、大きな助けとなりそうです。

Developer Tools の詳細は、公式の README.md に詳しく書かれていますが、従來から存在した In-Process API に対するラッパーライブラリである、というのが最もシンプルな説明となります。In-Process API を直接利用することで、自由に Triton の持つコア機能をそれぞれのアプリケーションへ組み込み、例えば通信プロトコルのオーバーヘッドを回避する形でアプリケーションを実裝したりできます。一方で、低レイヤーの API ということもあり、利用には多少の習熟が必要でした。今回の対応により、より抽象化されたわかりやすい形で API が提供されるようになるため、より簡単にアプリケーションへの機能組み込みを実現できるようになります。

また、Python バックエンドのロギング機構が整理され、triton_python_backend_utils.Logger を利用することで、より素直な形でログ出力を行うことができるようになります。これまでは print() などを利用することもあったかと思いますが、これ以降は統合された API でロギングが可能となります。更なる詳細はドキュメントをご覧ください。

What’s New 以外のアップデート

今月の、What’s New で言及されていない更新點は以下の通りです。

複數の Triton を同じマシン上に起動する際、HTTP および gRPC のそれぞれについて、共通のポート番號を利用できるようになります (PR#4732)
OpenVINO のバージョンが 2022.1 に更新されました (PR#4751)
プラットフォームごとのデバイス対応狀況についてドキュメントが整備されました (PR#4760)
- https://github.com/triton-inference-server/backend/blob/main/docs/backend_platform_support_matrix.md

最初の共通のポート番號を利用できる件は、分かりづらいのでここで少し解説します。

従來、Triton Inference Server のコンテナーが起動しているマシン上に、ホスト側の同じポートを指定する形でもうひとつコンテナーを起動しようとすると、ポートを listen できずにエラーを吐いて起動に失敗していました。例えば Unavailable - Socket '0.0.0.0:8001' already in use のようなメッセージとともに起動失敗する、という挙動です。一般的なサーバーアプリケーションとしてはよくある挙動ですが、今回の対応によって、このエラーを回避し、同一ポートで複數のサーバープロセスがリクエストを待ち受けられるようになります。

具體的には、同一ポート待ち受けを有効化したいプロトコルに対して、Triton 起動時に有効化のオプションを追加するだけです。HTTP で許可したい場合 --reuse-http-port=1 を、gRPC で許可したい場合 --reuse-grpc-port=1 を指定します。同時に指定しても OK です。例えば、tritonserver --model-repository /models --http-port 8000 --grpc-port 8001 --metrics-port 8002 --reuse-http-port=1 --reuse-grpc-port=1 とした場合、HTTP および gRPC のどちらも、複數の Triton が listen できるようになります。なおコマンドから推測できるかもしれませんが、metrics のエンドポイントは一意になる必要があるため、ポートの再利用はできません。

この機能の用途ですが、現時點では負荷分散目的の利用が想定されています。そのため、起動するコンテナーには、いずれも同じモデルが同じようにデプロイされている必要があります。仮に異なるモデルがデプロイされているような場合、あるリクエストは問題なく動作し、別のリクエストはモデルが見つからずエラーとなる、といった問題が発生します。

まとめ

今月は、細かい使い勝手を向上させるような更新が多く含まれていました。詳細について言及していませんが、Model Analyzer の探索ロジックが改善されたことも、Triton を本番適用していくためには重要です。今後も継続的に改善が続けられると思いますので、定期的に更新內容をご確認いただければ幸いです。また機能要望などあれば、公式リポジトリに issue を上げていただけるとありがたいです。

Triton Inference Server 2022 年 9 月のリリース概要

What’s New in 2.26.0 (NGC 22.09)

What’s New 以外のアップデート

まとめ

Tags

About the Authors

Triton Inference Server 2022 年 9 月のリリース概要

What’s New in 2.26.0 (NGC 22.09)

What’s New 以外のアップデート

まとめ

Tags

About the Authors

Related posts

Triton Inference Server 2022 年 12 月 - 2023 年 2 月のリリース概要

アンサンブル モデルによる NVIDIA Triton Inference Server 上での ML モデル パイプラインのサービング

Triton Inference Server 2022 年 11 月のリリース概要

Triton Inference Server 2022 年 10 月のリリース概要

Triton Inference Server 2022 年 8 月のリリース概要

アンサンブルモデルによる NVIDIA Triton Inference Server 上での ML モデルパイプラインのサービング