2. さまざまなタイプのカメラへの適応

TAO Toolkit を使用すると、學習済みモデルを新しいドメイン、環境、センサーに簡単に適応させることができます

2.1 カメラ利用時の課題

どのコンピューター ビジョン アプリケーションにも、周囲の世界を感知する AI モデルが必要です。そのために最もよく使用されるセンサーが、カメラです。カメラを使用することで、AI モデルは視覚的な情報を入力として受け取り、オブジェクトの分類、検出、追跡などのタスクを実行できます。

カメラを使用する AI モデルを現場に展開する場合、環境的要因や技術的要因で変化するさまざまな條件に対応してきちんと機能することが求められます。カメラのタイプや設置場所によっては、畫像の歪み、色ずれ、輝度レベルの変化などが発生します。現場へ速やかに展開するためには、特定の環境下で動作するようモデルをカスタマイズして、こうした要因やその他さまざまな制約に対処することが欠かせません。

たとえば、赤外線 (IR) カメラやサーマル カメラは、可視光スペクトルが使われていないため、低照度環境での撮影に非常に有効です。ただし、IR カメラは暗闇でも機能しますが、その畫像出力にはカラー データがなく、低解像度であることが多く、オブジェクト間の境界もはっきりしません。このため、IR のデータセットに対して、通常の RGB 畫像でトレーニングされた AI モデルを用いようとすると、多くの課題が出てきます。しかし、NVIDIA の學習済みモデルを利用すれば、カメラのタイプや環境的な條件が異なっていても、データの削減と學習時間の短縮が可能です。

図 1. 赤外線畫像
図 1. 赤外線畫像

2.2 解決策

AI や HPC のための GPU 最適化ソフトウェアのハブである NGC カタログは、特定の環境條件に合わせた微調整の土臺として最適な、運用品質の學習済みモデルを提供しています。學習済みモデルは、あらかじめ代表的なデータセットでトレーニングされており、重み付けとバイアスによって調整されています。カスタム データで簡単に再トレーニングでき、トレーニングに要する時間は、ゼロから行う場合に比べてわずかで済みます。

たとえば、PeopleNet は、100 萬枚を超える畫像でトレーニングされた學習済みモデルで、周囲が混雑している場合や、部分的に隠れている場合、解像度が低い場合でも人物の検出が可能です。

図 2. NVIDIA PeopleNet による人物検出
図 2. NVIDIA PeopleNet による人物検出

NVIDIA PeopleNet は展開が容易で、何より、NVIDIA TAO Toolkit で微調整して、異なる環境への適応が可能です。このモデルは、明るい場所の畫像でトレーニングされたものであるため、そのままであれば、熱 IR カメラの畫像ではパフォーマンスが低下します。TAO Toolkit を使用すれば、IR 畫像でうまく動作するよう、すばやくモデルを適応させることができます。

2.3 結論

異なるタイプのカメラ間での転移學習が有効であることを示すために、このユース ケースでは、タスクとして、NVIDIA の學習済みモデル PeopleNet を熱 IR 畫像で動作するよう適応させます。また、學習済みモデルを使用することで、少量のデータで高い精度が達成できることを示すために、このタスクでは、IR カメラで撮影されたサイズの異なるデータセットで 2 パターンのモデルをトレーニングします。

ゼロからトレーニングしたモデルの場合、mAP (平均適合率の平均) が 77% に達するまでに約 6,300 枚の畫像が必要でした。しかし、學習済みのモデル PeopleNet を土臺にしてトレーニングしたモデルの場合、mAP が 78% を超えるまでに必要とした畫像はわずか 2,500 枚でした。このユース ケースでは、學習済みの PeopleNet を使用することで、データを 60% 削減して同等の精度を達成することができます。つまり、畫像の収集とアノテーションに余計な時間をかけることなく、少ないデータセットで速やかにトレーニングできるということです。

また、學習済みの PeopleNet は、6,300 枚の畫像からなるデータセットでのトレーニングにおいても精度が高く、PeopleNet なしのトレーニングよりも 6% 高い 83% の mAP を実現しています。學習済みのモデルは、必要な畫像がはるかに少ないだけでなく、未學習のモデルを使用する場合以上の精度が得られます。このタスクでは、學習済みのモデルを使用することで、より少ないデータセットで高い精度を達成し、データのラベル付けやトレーニングのコストを削減できることが示されました。

図 3. IR 畫像での人物検出
図 3. IR 畫像での人物検出
図 3. IR 畫像での人物検出
図 4. IR データセットでの精度
図 4. IR データセットでの精度

このタスクは、FLIR 赤外線データセットを用いて実行しました。ガイド付きの完全なタスク実施手順は、TAO タスク GitHub リポジトリで入手できます。