Shubham Agrawal – NVIDIA 技術博客

使用 NVIDIA AI Blueprint 構建實時多模態 XR 應用以進行視頻搜索和摘要

Tue, 11 Mar 2025 06:43:16 +0000

隨著生成式 AI 和視覺基礎模型的最新進展，VLM 呈現了新一波視覺計算浪潮，其中模型能夠實現高度復雜的感知和深度上下文理解。這些智能解決方案為增強 XR 設置中的語義理解提供了一種很有前景的方法。通過集成 VLM，開發者可以顯著改進 XR 應用解釋用戶操作以及與用戶操作交互的方式，使其響應速度更快、更直觀。本文將向您介紹如何利用 NVIDIA AI Blueprint 進行視頻搜索和摘要，以及如何增強 Blueprint 以支持 XR 環境中的音頻。我們介紹了實時語音識別和沉浸式交互的分步過程——從設置環境到無縫集成。借助對話式 AI 功能增強 XR 應用，為用戶帶來更加身臨其境的體驗。通過創建在 XR 環境中提供 Q&A 功能的生成式 AI 智能體，用戶可以更自然地進行交互并獲得即時幫助。多模態 AI 智能體處理并合成多種輸入模式，例如視覺數據 (例如 XR…

Source

]]>

圖像和視頻理解的視覺語言模型提示工程實踐指南

Wed, 26 Feb 2025 06:49:25 +0000

視覺語言模型 (VLMs) 正在以極快的速度發展。2020 年，首批 VLMs 通過使用視覺編碼器將視覺理解引入大語言模型 (LLMs) ，徹底改變了生成式 AI 格局。這些初始 VLMs 能力有限，只能理解文本和單張圖像輸入。幾年后，VLM 現在能夠理解多圖像和視頻輸入，以執行高級視覺語言任務，例如視覺問答 (VQA)、字幕、搜索和摘要。通過調整提示和模型權重，可以提高特定用例的 VLM 準確性。可以使用 PEFT 等高效技術微調模型權重，但仍需要足夠的數據和計算。但是， prompt engineering 和上下文學習也可用于提高輸出質量，并且與在運行時調整模型的文本輸入一樣簡單。本文將為您介紹 VLM 的演變，以及如何有效地提示 VLM 以用于了解單張圖像、多張圖像和視頻的用例。如需了解有關 VLM 和視覺 AI 智能體的更多信息，

Source

]]>

NVIDIA TAO 5.5 帶來新基礎模型和增強訓練功能

Wed, 28 Aug 2024 06:23:45 +0000

NVIDIA TAO 是一個旨在簡化和加速 AI 模型開發和部署的框架。它使您能夠使用預訓練模型，使用自己的數據微調模型，并針對特定用例優化模型，而無需深入的 AI 專業知識。 TAO 與 NVIDIA 硬件和軟件生態系統無縫集成，提供用于高效 AI 模型訓練、部署和推理的工具，并加速 AI 驅動應用程序的上市時間。圖 1 顯示 TAO 支持 PyTorch、TensorFlow 和 ONNX 等框架。訓練可以在多個平臺上完成，而生成的模型可以部署在 GPU、CPU、MCU 和 DLA 等各種推理平臺上。 NVIDIA 剛剛發布了 TAO 5.5，引入了先進的基礎模型和突破性功能，可增強任何 AI 模型開發。新的功能包括以下內容：在本文中，我們將更詳細地討論 TAO 5.5 的新功能。 NVIDIA TAO 集成了開源、基礎和專有模型，

Source

]]>