• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    對話式人工智能

    語音 AI 聚焦:在 AR 眼鏡上可視化口語和聲音

    ?

    音頻可以包括各種各樣的聲音,從人類的語音到狗叫聲和警笛聲等非語音。當為聽力困難的人設計可訪問的應用程序時,該應用程序應該能夠識別聲音和理解語音。

    這項技術將幫助聾人或重聽人可視化語音,如人類對話和非語音。將語音和聲音 AI 結合在一起,你可以將可視化效果疊加到 AR 眼鏡上,讓用戶可以看到和解釋他們在其他情況下聽不到的聲音。

    根據世界衛生組織估計,全球約有 15 億人(占全球人口的近 20%)患有聽力損失。到 2050 年,這一數字可能會上升至 25 億。

    Cochl,一家總部位于圣何塞的 NVIDIA 合作伙伴,是一家深度科技初創公司,使用聲音 AI 技術來理解任何類型的音頻。他們也是 NVIDIA 的Inception Program的成員,通過提供尖端技術和 NVIDIA 專家,幫助初創公司更快地構建解決方案。

    該平臺可以識別 37 種環境聲音,該公司更進一步,增加了尖端的語音轉文本技術。這讓我們真正完整地了解了聲音的世界。

    AR 眼鏡,可顯示任何聲音

    AR 眼鏡作為一種可視化聲音的工具,可以極大地改善聽力損失患者的生活。這項技術可以幫助他們增強溝通能力,使他們更容易導航和參與周圍的世界。

    視頻 1 。 Cochl . Sense 和 NVIDIA Riva 正在微軟 HoloLens 2 上工作!

    在這種情況下,自動語音識別( ASR )用于使眼鏡能夠識別和理解人類語音。此技術可以通過多種方式集成到眼鏡中:

    • 使用麥克風捕捉與聾人或重聽人交談的人的語音,然后使用 ASR 算法將語音翻譯并轉錄為文本。然后,這些文本可以顯示在眼鏡上,使聾人或重聽人能夠閱讀和理解語音。
    • ASR 還可以用于使眼鏡能夠響應語音命令,從而用戶可以用他們的語音控制眼鏡。
    • 他們還能夠在屏幕上顯示所有對話,例如在你開車時從地圖上轉錄語音指示,以及任何其他聲音,如緊急車輛的喇叭或警笛聲和風噪。

    解決方案背后的技術

    使用了 NVIDIA Riva 為其 ASR 功能提供動力。Riva 是一個 GPU 加速的、完全可定制的 SDK,用于開發語音 AI 應用程序。通過使用 Riva,該平臺已經能夠擴展其理解廣泛聲音的能力,包括非語音聲音。

    Cochl 聯合創始人兼首席執行官 Yoonchang Han 表示:“我們已經測試了很多語音識別服務,但只有 Riva 提供了極高且穩定的實時性能。因此,現在我們可以讓我們的聲音 AI 系統更接近人類的聽覺感知。”。

    “正如我們所觀察到的, AR 眼鏡最有可能在嘈雜環境的開放空間中使用。 NVIDIA Riva 幫助我們即使在嘈雜環境中也能準確地轉錄語音,并為我們提供了無縫集成到 Cochl.sense 平臺的體驗。”

    輔助技術的未來

    創建一個感知聲音像人類的通用人工智能系統是一個巨大的挑戰。為了讓 AR 眼鏡更容易接近,需要更輕的可穿戴技術。

    然而,在這一點上,它們仍然是將聲音和語音翻譯成視覺信息的理想媒介。通過集成機器聽音功能, AR 眼鏡可以為世界各地的聾人或重聽者帶來更安全、更方便、更愉快的日常生活。

    Cochl 還在探索語音 AI 的更多用例,例如為 AR 眼鏡上的任何視頻提供隱藏字幕,以及可視化多揚聲器轉錄。為了給聽力困難的人提供最好的體驗,他們正在探索分析和可視化音樂的方法,以幫助他們至少了解音樂的流派和情感。

    他們很高興能夠試驗更多的 NVIDIA 解決方案,包括 Riva、NeMoTensorRT

    立即開始語音 AI

    有興趣將語音 AI 添加到您的 VR 應用程序中嗎?瀏覽這些資源開始:

    ?

    +1

    標簽

    人人超碰97caoporen国产