• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    計算機視覺/視頻分析

    通過 NVIDIA Maxine 眼神接觸改善視頻會議中的人際關系

    ?

    視頻會議是幾個流媒體使用案例的核心,如 vlogging 、 vtubing 、網絡廣播,甚至遠程工作的視頻流媒體。為了創造一種更大的存在感,并從語言和非語言的線索中獲取信息,視頻會議技術必須讓用戶能夠清晰地看到和聽到。

    眼神交流在建立社交關系中起著關鍵作用,在面對面交談中,它意味著自信、聯系和關注。然而,在視頻會議場景中,持續進行眼神交流是不可行的。它要求用戶持續直視攝像頭,而不是電腦顯示器。如果你正在閱讀腳本或在電腦屏幕上查看數據,這可能會很困難。

    由于各種生理原因,保持眼神接觸有時也是一項挑戰。許多兒童和成人都很難進行和保持眼神交流。

    為了改善、增強和增強用戶體驗,我們開發了 NVIDIA Maxine Eye Contact 。該功能使用 AI 實時向用戶的網絡攝像頭輸入應用過濾器,并將他們的目光轉向攝像頭。

    Side-by-side image of a person with Eye Contact on the right and without Eye Contact on the left.
    圖 1 。 NVIDIA Maxine Eye Contact 讓人的眼睛看起來像在看攝像頭

    這種創新的基于 AI 的注視估計和重定向算法是最先進的,并完全集成到 NVIDIA AR SDK 中,引入了新的注視估計與重定向以及 6DOF 頭部姿態估計功能。

    Screen capture of NVIDIA Broadcast App, which includes microphone, speakers, and camera setting with person in camera frame.
    圖 2 : NVIDIA 廣播應用程序 1.4 更新,具有新的眼神交流功能

    NVIDIA Maxine Eye Contact 還集成到 NVIDIA Broadcast App 中,這是 NVIDIA RTX 和 GeForce RTX GPU 所有者的免費軟件下載,可將任何房間轉變為家庭工作室。在 1.4 版中測試新的眼睛接觸。

    創建眼神交流管道

    NVIDIA Maxine Eye Contact 對眼睛周圍的感興趣區域(也稱為眼罩)進行操作。使用 NVIDIA Maxine Face 跟蹤管道從視頻幀中提取眼罩,從視頻幀計算 2D 面部標志和 6DOF 頭部姿勢。

    Face tracking input and output workflow where input image converts into 2D landmarks and 6DOF pose.
    圖 3 。 NVIDIA 人臉跟蹤管道圖

    然后使用該頭部姿勢來規范視頻幀中的面部。一個 256 ? 從標準化幀中裁剪 64px 的眼罩,并將其饋送到眼睛接觸網絡中。眼睛接觸網絡具有解糾纏的編碼器 – 解碼器架構。編碼器根據輸入眼罩以及一組特征(也稱為嵌入)估計注視角度。

    基于這些嵌入,解碼器在輸入補丁中執行注視的重定向,以使面部向前看。管道的最后一個階段涉及通過逆變換將眼罩混合回原始視頻幀。

    管道的輸出是頭部姿勢、注視角度和具有重定向眼睛注視的圖像。管道也可以在 gaze estimation-only 模式下使用,在這種情況下,重定向被關閉。

    Maxine Eye Contact input and output workflow where input image converts into gaze directed image and head pose and gaze angles.
    圖 4 。 NVIDIA Eye Contact 管道圖

    該技術將用戶的視線轉向前方和中央。為了保持自然的體驗,當原始眼睛注視遠離中心時,該算法減少了重定向效果。當頭部旋轉超過預定閾值時,重定向也被關閉,在該閾值之外,自然看起來的重定向是不可行的。

    NVIDIA Maxine Eye Contact 模型架構

    NVIDIA Eye Contact workflow where eye contact image inputs into the encoder and outputs through the decoder with redirected eye contact image.
    圖 5 。 NVIDIA Maxine Eye Contact 功能模型架構圖

    眼睛接觸網絡的結構由變換編碼器和解碼器結構組成。編碼器將圖像內容編碼為以下因素的潛在表示:

    • 非受試者相關因素,如 環境照明、陰影、白平衡和色調以及模糊度。
    • 受試者相關因素,如膚色、面部和眼睛形狀、眼鏡和眼睛注視。
    • 頭部姿勢。

    此外,編碼器預測“狀態”( R) 這些潛在因素( z) 由一維或二維旋轉角度編碼。

    在我們的設計中,應用于單個潛在因素的旋轉會影響圖像外觀的相應單調變化。例如,為了改變注視,需要轉換與注視相關的潛在因素。然后,我們將所有內部表示(原始的和變換的)輸入到解碼器網絡中,以創建最終重定向的眼睛圖像。

    與現有的最先進的方法相比,我們的算法在視線重定向的準確性、視線與其他因素的分離以及感知圖像質量方面提供了與推斷時間權衡相比的最佳精度。

    保持眼睛顏色

    保持眼睛顏色是任何注視重定向算法的關鍵挑戰之一。我們的眼睛接觸網絡已經在大約 400 萬張圖像的大型多樣數據集上進行了訓練。大約 25% 是人工合成的,以增加眼睛顏色和形狀的多樣性。

    此外,我們的網絡使用幾個損失函數進行訓練,這有助于眼睛的準確重定向。重定向中使用的主要損失函數有:

    1. Reconstruction loss: 我們使用生成的圖像和目標圖像之間的逐像素 L1 重建損失來指導重定向圖像的生成。

    L_R (X_t,X_t)= \frac{1}{|X_t|}||{\tilde{X_t}-X_t}||_1

    1. Functional loss: 我們使用功能損失,它優先考慮最小化生成的圖像和目標圖像之間的任務相關不一致,例如虹膜位置不匹配。

    這通過生成的圖像和目標圖像的特征之間的 L2 損失來定義。

    L_{F_{feature}} (\tilde{X_t},X_t) = \sum_{i=1}^{5} \frac{1}{|\psi_i(X_t)|}|| \psi_i(\tilde{X_t})-(X_t) ||_2

    1. Disentanglement loss: 理想情況下,應分離單獨的環境和物理因素,以避免在更改子集時更改重定向圖像中的任何其他因素。

    我們鼓勵通過首先隨機變換因子的子集以創建混合因子表示來解開編碼因子之間的糾纏。其公式如下:

    f_{mix} = \{f_{mix}^1,f_{mix}^2,f_{mix}^N\},f_{mix}^j = sf_{i}^j +(1-s)\tilde{f_{t}^{j},s \tilde \{0,1}

    完全解纏損失定義為混合嵌入和恢復嵌入之間的差異,以及處理前后注視和頭部標簽之間的誤差。

    設置工作范圍

    如前所述,眼睛接觸網絡的輸入是尺度歸一化的眼罩。已經觀察到,重定向可以可靠地發生,并且在大約 20 度俯仰角和偏航角的錐體中更自然。這被認為是該功能的推薦工作范圍。

    以下是針對眼神接觸的成功注視重定向示例。

    Eye Contact examples of a person looking at and away from the camera.
    圖 6 。 Maxine Eye Contact 功能的工作范圍

    解決過渡下降問題

    眼跳是一種常見的、經常是眼睛快速、平穩的動作的反射。

    例如,在掃視過程中可能會出現的工作范圍之外,注視重定向看起來不那么自然,而且會關閉。

    然而,突然關閉該功能會導致虹膜突然移動,這是不可取的。為了解決這個問題,我們引入了一個過渡區域,在該區域中,眼睛被重定向,以平滑的方式從注視相機轉向實際的注視角度。

    該下降作為當前重定向角度和實際注視方向之間的梯度的函數而遞增地執行。這種轉變的速度被設定為模仿人眼的典型運動。當重定向角度充分接近估計的注視角度時,該特征被完全關閉。

    Eye Contact examples of a person looking at and away from the camera.
    圖 7 。 Maxine 眼睛接觸功能的過渡下降

    處理眼睛隱形

    有時,由于眨眼、移動或動態環境,一個人的眼睛可能會完全或部分被遮擋。例如,一個人的手或其他物體可能會遮擋相機視圖中的眼睛。

    我們的眼睛接觸管道能夠檢測和保持眨眼。該算法還在檢測到由地標估計的低置信度指示的遮擋之后關閉注視重定向效果。

    優化性能

    使用 TensorRT 加速管道 GPU 。我們的設計和實現在 NVIDIA GPU 上執行實時時間推斷,每幀延遲小于 5ms 。除了 NVIDIA RTX 臺式機和筆記本電腦外,它還對性能進行了優化,并支持數據中心用例的多個流實例的同時執行。

    Maxine Eye Contact Performance graph where latency is compared with consumer and data center GPUs.
    圖 8 。 NVIDIA Maxine Eye Contact GPU 性能(以毫秒為單位)

    立即下載

    開發者 SDK

    NVIDIA Maxine Eye Contact 可在 AR SDK 中下載,適用于 Windows 和 Linux 。 SDK 提供了有關 API 用法和示例應用程序的相關文檔,以開始無縫集成到任何應用程序中。使用此 SDK API ,可以控制各種參數,如時間過濾和眼睛大小敏感度。

    NVIDIA UCF 開發者微服務

    它也將作為 NGC 注冊表中視頻效果微服務的一部分提供。它符合 NVIDIA UCF ,可以與其他微服務結合,構建多模式 AI 應用程序。

    面向消費者的 NVIDIA 廣播應用程序

    對于那些不想構建自定義應用程序但希望訪問此功能的用戶,現在可以在 NVIDIA Broadcast App 中使用此功能。通過選擇 NVIDIA 廣播攝像機,可以在視頻會議和視頻廣播應用程序中啟用該功能。

    促進我們的發展

    隨著我們在未來版本中繼續改進,您可以通過對 NVIDIA Maxine and NVIDIA Broadcast App. 的貢獻來幫助我們

    ?

    +4

    標簽

    人人超碰97caoporen国产