]]>6119基于熵的字級 ASR 置信度估計方法
http://www.open-lab.net/zh-cn/blog/entropy-based-methods-for-word-level-asr-confidence-estimation/
Fri, 13 Jan 2023 09:16:10 +0000http://www.open-lab.net/zh-cn/blog/?p=6160Continued]]>一旦您有了自動語音識別( ASR )模型預測,您可能還想知道這些預測正確的可能性。這種正確率或置信度通常作為原始預測概率(快速、簡單且可能無用)來衡量。您還可以訓練單獨的模型來估計預測置信度(準確,但復雜且緩慢)。這篇文章解釋了如何使用基于熵的方法實現快速、簡單的單詞級 ASR 置信度估計。 你有沒有見過機器學習模型預測,并想知道這種預測有多準確?您可以根據在類似測試用例中測量的準確度進行猜測。例如,假設您知道 ASR 模型以 10% 的單詞錯誤率( WER )預測錄制語音中的單詞。在這種情況下,您可以預期該模型識別的每個單詞都有 90% 的準確率。 對于某些應用程序來說,這樣的粗略估計可能就足夠了,但如果您想確切地知道哪個單詞更可能正確,哪個單詞不正確呢?這將需要使用超出實際單詞的預測信息,例如從模型接收的準確預測概率。
]]>6167深度學習正在改變 ASR 和 TTS 算法
http://www.open-lab.net/zh-cn/blog/deep-learning-is-transforming-asr-and-tts-algorithms/
Fri, 16 Dec 2022 06:25:00 +0000http://www.open-lab.net/zh-cn/blog/?p=5881Continued]]>語音是與 AI 驅動的應用程序通信的主要手段之一。從虛擬助理到數字化身,基于語音的界面正在改變我們通常與智能設備的交互方式。 深度學習 用于語音識別和語音合成的技術有助于改善用戶體驗,如人類般的響應和自然的音調。 如果您計劃構建和部署支持語音 AI 的應用程序,本文將概述 自動語音識別 ( ASR )和文本到語音( TTS )技術如何因深度學習而發展。我還提到了當今現代應用中使用的一些流行的、最先進的 ASR 和 TTS 架構。 無論你是在元宇宙中與數字人交談,還是在聯絡中心與真人交談,每天都會產生數千億分鐘的音頻。語音 AI 可以幫助自動化所有這些音頻分鐘。 Speech AI 包括 ASR 、 TTS 和相關任務等技術。有趣的是,這些技術并不新鮮,而且已經存在了 50 年。 今天,使用深度學習技術開發的 ASR 算法可以針對特定領域的行話、語言、
]]>5929為新語言創建的 NVIDIA Riva ASR 服務
http://www.open-lab.net/zh-cn/blog/making-an-nvidia-riva-asr-service-for-a-new-language/
Fri, 28 Oct 2022 05:35:00 +0000http://www.open-lab.net/zh-cn/blog/?p=5567Continued]]>Speech AI 是智能系統使用語音接口與用戶進行通信的能力,語音接口在日常生活中已變得無處不在。人們經常通過語音與智能家居設備、車載助手和手機互動。近年來,語音界面質量得到了突飛猛進的改善,使其比十年前更加愉快、實用和自然。 具有語音 AI 接口的智能系統組件包括: ASR 是任何語音 AI 系統的第一個組件,起著至關重要的作用。 ASR 階段早期出現的任何錯誤都會在隨后的意圖分析和實現階段中出現問題。 目前有超過 6500 種口語在使用,其中大多數沒有商業 ASR 產品。 ASR 服務提供商最多覆蓋幾十家。 NVIDIA Riva 目前涵蓋五種語言(英語、西班牙語、德語、普通話和俄語),更多版本將在未來發布。 雖然這一套還很小,但 Riva 為您提供了現成的工作流、工具和指導,以快速、系統、輕松地為新語言提供 ASR 服務。在這篇文章中,
]]>5567構建基尼亞盧旺達語的自動語音識別模型
http://www.open-lab.net/zh-cn/blog/building-an-automatic-speech-recognition-model-for-the-kinyarwanda-language/
Thu, 20 Oct 2022 04:11:00 +0000http://www.open-lab.net/zh-cn/blog/?p=5502Continued]]>語音識別技術在語音助手和機器人、通過輔助醫療或教育解決現實世界問題等方面越來越受歡迎。這有助于實現全球 speech AI 接入的民主化。隨著為獨特的新興語言標記的數據集變得越來越廣泛,開發人員可以輕松、準確、經濟地構建 AI 應用程序,以增強本地區的技術開發和體驗。 Kinyarwanda 是盧旺達、烏干達、剛果民主共和國和坦桑尼亞 980 萬人的母語,全球共有 2000 多萬人使用。 2022 年 4 月, Mozilla Common Voice (MCV) ,一個眾包項目,旨在使語音識別向所有人開放和可訪問,對構建基尼亞盧旺達數據集做出了重大貢獻,詳見文章 Lessons from Building for Kinyarwanda on Common Voice 。這是一個 57 GB 的數據集,有 2000 多小時的音頻,是 MCV 平臺上最大的數據集。