語音 AI 聚焦：在 AR 眼鏡上可視化口語和聲音

音頻可以包括各種各樣的聲音，從人類的語音到狗叫聲和警笛聲等非語音。當為聽力困難的人設計可訪問的應用程序時，該應用程序應該能夠識別聲音和理解語音。

這項技術將幫助聾人或重聽人可視化語音，如人類對話和非語音。將語音和聲音 AI 結合在一起，你可以將可視化效果疊加到 AR 眼鏡上，讓用戶可以看到和解釋他們在其他情況下聽不到的聲音。

根據世界衛生組織估計，全球約有 15 億人（占全球人口的近 20%）患有聽力損失。到 2050 年，這一數字可能會上升至 25 億。

Cochl，一家總部位于圣何塞的 NVIDIA 合作伙伴，是一家深度科技初創公司，使用聲音 AI 技術來理解任何類型的音頻。他們也是 NVIDIA 的Inception Program的成員，通過提供尖端技術和 NVIDIA 專家，幫助初創公司更快地構建解決方案。

該平臺可以識別 37 種環境聲音，該公司更進一步，增加了尖端的語音轉文本技術。這讓我們真正完整地了解了聲音的世界。

AR 眼鏡，可顯示任何聲音

AR 眼鏡作為一種可視化聲音的工具，可以極大地改善聽力損失患者的生活。這項技術可以幫助他們增強溝通能力，使他們更容易導航和參與周圍的世界。

視頻 1 。 Cochl . Sense 和 NVIDIA Riva 正在微軟 HoloLens 2 上工作！

在這種情況下，自動語音識別（ ASR ）用于使眼鏡能夠識別和理解人類語音。此技術可以通過多種方式集成到眼鏡中：

使用了 NVIDIA Riva 為其 ASR 功能提供動力。Riva 是一個 GPU 加速的、完全可定制的 SDK，用于開發語音 AI 應用程序。通過使用 Riva，該平臺已經能夠擴展其理解廣泛聲音的能力，包括非語音聲音。

Cochl 聯合創始人兼首席執行官 Yoonchang Han 表示：“我們已經測試了很多語音識別服務，但只有 Riva 提供了極高且穩定的實時性能。因此，現在我們可以讓我們的聲音 AI 系統更接近人類的聽覺感知。”。

“正如我們所觀察到的， AR 眼鏡最有可能在嘈雜環境的開放空間中使用。 NVIDIA Riva 幫助我們即使在嘈雜環境中也能準確地轉錄語音，并為我們提供了無縫集成到 Cochl.sense 平臺的體驗。”

創建一個感知聲音像人類的通用人工智能系統是一個巨大的挑戰。為了讓 AR 眼鏡更容易接近，需要更輕的可穿戴技術。

然而，在這一點上，它們仍然是將聲音和語音翻譯成視覺信息的理想媒介。通過集成機器聽音功能， AR 眼鏡可以為世界各地的聾人或重聽者帶來更安全、更方便、更愉快的日常生活。

Cochl 還在探索語音 AI 的更多用例，例如為 AR 眼鏡上的任何視頻提供隱藏字幕，以及可視化多揚聲器轉錄。為了給聽力困難的人提供最好的體驗，他們正在探索分析和可視化音樂的方法，以幫助他們至少了解音樂的流派和情感。

他們很高興能夠試驗更多的 NVIDIA 解決方案，包括 Riva、NeMo 和 TensorRT。

有興趣將語音 AI 添加到您的 VR 應用程序中嗎？瀏覽這些資源開始：