VLMs – NVIDIA 技術ブログ http://www.open-lab.net/ja-jp/blog Thu, 06 Feb 2025 02:31:29 +0000 ja hourly 1 Jetson プラットフォーム サービス 2.0 の VLM ビデオ要約マイクロサービスの紹介 http://www.open-lab.net/ja-jp/blog/introducing-the-vlm-video-summarization-microservice-on-jetson-platform-services-2-0/ Thu, 06 Feb 2025 02:31:27 +0000 http://www.open-lab.net/ja-jp/blog/?p=3152 Reading Time: 6 minutes はじめに Jetpack 6.2 のリリースと同時に Jetson プラットフォームサービス (JPS: Jetson Platform Services) がバージョン 2.0 としてアップデート リリースされました。 … Continued]]> Reading Time: 6 minutes Jetpack 6.2 のリリースと同時に Jetson プラットフォームサービス (JPS: Jetson Platform Services) がバージョン 2.0 としてアップデート リリースされました。これは、以前リリースされた「Metropolis Microservices on Jetson (MMJ)」の進化形であり、Jetpack 內でのマイクロサービスのネイティブ統合が強化されています。現在のリリースは JetPack 6.1 GA (BSP R36.4.0) または JetPack 6.2 (BSP R36.4.3) で動作します。 本稿では、この JPS 2.0 の概要と、その中の「VLM ビデオ要約サービス」のデモについて説明します。 今回リリースされた JPS 2.0…

Source

]]>
3152
NVIDIA NIM によるマルチモーダル ビジュアル AI エージェントの構築 http://www.open-lab.net/ja-jp/blog/build-multimodal-visual-ai-agents-powered-by-nvidia-nim/ Thu, 31 Oct 2024 08:46:59 +0000 http://www.open-lab.net/ja-jp/blog/?p=2986 Reading Time: 3 minutes 畫像から PDF、ストリーミング動畫に至るまで、ビジュアル データが指數関數的に急増しているため、手動によるレビューと分析は事実上不可能になっています。企業は、このデータを大規模に実用的な洞察に変えるのに苦労しており、そ … Continued]]> Reading Time: 3 minutes 畫像から PDF、ストリーミング動畫に至るまで、ビジュアル データが指數関數的に急増しているため、手動によるレビューと分析は事実上不可能になっています。企業は、このデータを大規模に実用的な洞察に変えるのに苦労しており、その結果、機會逸失やリスクの増大につながっています。 この課題を解決するために、畫像や動畫の視覚認識とテキストベースの推論を組み合わせた強力なツールとして、ビジョン言語モデル (VLM) が登場しています。テキストのみを処理する従來の大規模言語モデル (LLM) とは異なり、VLM は複雑なマルチモーダル データを理解し、それに基づいて行動するビジュアル AI エージェントを構築できるため、リアルタイムの意思決定と自動化が可能になります。 リモート カメラの映像を解析して山火事の初期兆候を検出したり、

Source

]]>
2986
高速化された Llama 3.2 をエッジからクラウドへデプロイする http://www.open-lab.net/ja-jp/blog/deploying-accelerated-llama-3-2-from-the-edge-to-the-cloud/ Wed, 25 Sep 2024 08:25:00 +0000 http://www.open-lab.net/ja-jp/blog/?p=2896 Reading Time: 2 minutes オープンソースの Meta Llama モデルのコレクションを拡張した Llama 3.2 コレクションには、視覚言語モデル (VLM)、小規模言語モデル (SLM)、ビジョンのサポートが追加された Llama Guar … Continued]]> Reading Time: 2 minutes オープンソースの Meta Llama モデルのコレクションを拡張した Llama 3.2 コレクションには、視覚言語モデル (VLM)、小規模言語モデル (SLM)、ビジョンのサポートが追加された Llama Guard モデルが含まれています。NVIDIA のアクセラレーテッド コンピューティング プラットフォームと組み合わせることで、Llama 3.2 は開発者、研究者、企業に、生成 AI のユース ケースを実現するための有益な新機能と最適化を提供します。 NVIDIA H100 Tensor コア GPU でトレーニングされた 1B および 3B サイズの SLM は、エッジ デバイスに Llama ベースの AI アシスタントを展開するのに最適です。11B および 90B サイズの VLM は、

Source

]]>
2896
人人超碰97caoporen国产