Aleksandra Antonova – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 26 Oct 2022 04:16:04 +0000 zh-CN hourly 1 196178272 構建基尼亞盧旺達語的自動語音識別模型 http://www.open-lab.net/zh-cn/blog/building-an-automatic-speech-recognition-model-for-the-kinyarwanda-language/ Thu, 20 Oct 2022 04:11:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5502 Continued]]> 語音識別技術在語音助手和機器人、通過輔助醫療或教育解決現實世界問題等方面越來越受歡迎。這有助于實現全球 speech AI 接入的民主化。隨著為獨特的新興語言標記的數據集變得越來越廣泛,開發人員可以輕松、準確、經濟地構建 AI 應用程序,以增強本地區的技術開發和體驗。 Kinyarwanda 是盧旺達、烏干達、剛果民主共和國和坦桑尼亞 980 萬人的母語,全球共有 2000 多萬人使用。 2022 年 4 月, Mozilla Common Voice (MCV) ,一個眾包項目,旨在使語音識別向所有人開放和可訪問,對構建基尼亞盧旺達數據集做出了重大貢獻,詳見文章 Lessons from Building for Kinyarwanda on Common Voice 。這是一個 57 GB 的數據集,有 2000 多小時的音頻,是 MCV 平臺上最大的數據集。

Source

]]>
5502
使用 NVIDIA NeMo 進行文本規范化和反向文本規范化 http://www.open-lab.net/zh-cn/blog/text-normalization-and-inverse-text-normalization-with-nvidia-nemo/ Fri, 16 Sep 2022 03:32:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5254 Continued]]> 文本規范化( TN )將文本從書面形式轉換為口頭形式,是文本到語音( TTS )之前的一個重要預處理步驟。 TN 確保 TTS 可以處理所有輸入文本,而不會跳過未知符號。例如,“ 123 美元”轉換為“一百二十三美元” 反向文本規范化( ITN )是自動語音識別( ASR )后處理管道的一部分。 ITN 將 ASR 模型輸出轉換為書面形式,以提高文本可讀性。例如, ITN 模塊將 ASR 模型轉錄的“ 123 美元”替換為“ 123 美元。” ITN 不僅提高了可讀性,還提高了下游任務(如神經機器翻譯或命名實體識別)的性能,因為這些任務在訓練期間使用書面文本。 TN 和 ITN 任務面臨幾個挑戰: TN 和 ITN 系統支持多種 semiotic classes ,即口語形式不同于書面形式的單詞或標記,需要規范化。例如日期、小數、基數、度量等。

Source

]]>
5254
人人超碰97caoporen国产