• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 計算機視覺/視頻分析

    AI 交互工具為盲人和弱視者帶來沉浸式視頻體驗

    新研究旨在借助 AI 驅動的系統,為失明或低視 (BLV) 觀眾帶來視頻訪問變革,使用戶能夠以交互方式探索內容。該創新系統在最近的一篇論文中進行了詳細介紹,解決了傳統音頻描述 (AD) 中的重大差距,提供了豐富的沉浸式視頻觀看體驗,使用戶能夠更好地理解和參與視頻內容。

    盡管視頻已成為訪問信息和娛樂的重要媒介,但視力受限者通常發現這些媒介不太容易獲取,”巴黎圣母院大學計算機科學與工程博士的首席作者 Zheng Ning 說,“借助 AI,我們可以構建一個交互式系統,從視頻中提取分層信息,并使用戶能夠通過有限的視覺、聽覺感知和觸覺,在消費視頻內容方面發揮積極作用。

    AD 可為視頻中的視覺元素提供口語敘事,對于可訪問性至關重要。但是,傳統的靜態描述通常會省略細節,主要集中在為用戶提供內容理解的信息,而不是讓用戶沉浸在內容中。此外,同時消費和處理原始聲音以及 AD 中的音頻可能會帶來心理負擔,從而降低用戶參與度。

    研究人員來自諾特丹大學、加州大學圣迭戈分校、德克薩斯大學達拉斯分校和威斯康星大學麥迪遜分校,開發了一種新的AI驅動系統,以解決這些挑戰。

    該工具名為 System for Providing Interactive Content for Accessibility (SPICA),使用戶能夠通過分層廣告和空間音效以交互方式探索視頻內容。

    機器學習流程首先進行場景分析,以識別關鍵幀,然后進行物體檢測和分割,以確定每幀中的重要對象。接著,使用經過優化的圖像字幕模型和 GPT-4 對這些對象進行詳細描述,以實現一致性和全面性。

    視頻 1.SPICA 交互演示,供 BLV 用戶通過滾動對象來探索視頻

    該流程還可檢索每個物體的空間音效,利用其 3D 位置來增強空間感知。深度估計進一步優化了物體的 3D 定位,而前端界面使用戶能夠使用觸摸或鍵盤輸入以交互方式探索這些幀和物體,并借助高對比度疊加技術為視覺殘差者提供幫助。

    The SPICA workflow.
    圖 1. 機器學習流程由多個模塊組成,用于生成分層幀級描述、目標級描述、高對比度顏色蒙版和空間音效

    SPICA 在 NVIDIA RTX A6000 GPU 上運行,該團隊作為 NVIDIA 學術硬件資助計劃的受助者獲得了該設備。

    寧表示:“NVIDIA 技術是該系統的重要組成部分,為運行這些計算模型提供了穩定高效的平臺,從而大幅減少系統的實施時間和工作量。”

    這種計算機視覺和自然語言處理技術的高級集成使BLV用戶能夠以更詳細、更靈活和更身臨其境的方式與視頻內容進行交互。用戶不會按幀獲得預定義的廣告,而是通過觸摸界面或屏幕閱讀器主動探索幀內的單個對象。

    SPICA 還通過交互式元素、空間音效和詳細的物體描述來增強現有的 AD,這些所有都通過音視頻機器學習流程生成。

    在 SPICA 的開發期間,研究人員使用 BLV 視頻消費研究來根據用戶需求和偏好調整系統。該團隊對 14 名 BLV 參與者進行了用戶研究,以評估可用性和有用性。參與者發現該系統易于使用,并且能夠有效地提供額外信息,從而提高他們對視頻內容的理解和沉浸感。

    研究人員表示,從用戶研究中獲得的見解凸顯了進一步研究的潛力,包括改進 AI 模型以生成準確且上下文豐富的描述。此外,還可以探索使用觸覺反饋和其他感知通道來增加 BLV 用戶的視頻消耗量。

    該團隊計劃利用 AI 進行未來研究,幫助 BLV 個人在日常生活中完成物理任務,并通過近期在大型生成模型上的突破發現潛力。

    詳細了解SPICA.
    閱讀research


    AI for Good?博客系列展示了 AI 在解決緊迫的全球挑戰方面的變革力量。了解研究人員和開發者如何利用突破性技術,并利用 AI 啟動創新項目,為人類和地球帶來積極的變化。

    此內容部分在生成式 AI 和 LLMs 的協助下制作而成。研究人員對其進行了仔細審查,并由 NVIDIA 技術博客團隊進行了編輯,以確保精準性、準確性和質量。引文為原創。

    ?

    ?

    ?

    0

    標簽

    人人超碰97caoporen国产