構建基尼亞盧旺達語的自動語音識別模型

Thu, 20 Oct 2022 04:11:00 +0000

語音識別技術在語音助手和機器人、通過輔助醫療或教育解決現實世界問題等方面越來越受歡迎。這有助于實現全球 speech AI 接入的民主化。隨著為獨特的新興語言標記的數據集變得越來越廣泛，開發人員可以輕松、準確、經濟地構建 AI 應用程序，以增強本地區的技術開發和體驗。 Kinyarwanda 是盧旺達、烏干達、剛果民主共和國和坦桑尼亞 980 萬人的母語，全球共有 2000 多萬人使用。 2022 年 4 月， Mozilla Common Voice (MCV) ，一個眾包項目，旨在使語音識別向所有人開放和可訪問，對構建基尼亞盧旺達數據集做出了重大貢獻，詳見文章 Lessons from Building for Kinyarwanda on Common Voice 。這是一個 57 GB 的數據集，有 2000 多小時的音頻，是 MCV 平臺上最大的數據集。

Source

]]>

使用 NVIDIA NeMo 進行文本規范化和反向文本規范化

Fri, 16 Sep 2022 03:32:00 +0000

文本規范化（ TN ）將文本從書面形式轉換為口頭形式，是文本到語音（ TTS ）之前的一個重要預處理步驟。 TN 確保 TTS 可以處理所有輸入文本，而不會跳過未知符號。例如，“ 123 美元”轉換為“一百二十三美元” 反向文本規范化（ ITN ）是自動語音識別（ ASR ）后處理管道的一部分。 ITN 將 ASR 模型輸出轉換為書面形式，以提高文本可讀性。例如， ITN 模塊將 ASR 模型轉錄的“ 123 美元”替換為“ 123 美元。” ITN 不僅提高了可讀性，還提高了下游任務（如神經機器翻譯或命名實體識別）的性能，因為這些任務在訓練期間使用書面文本。 TN 和 ITN 任務面臨幾個挑戰： TN 和 ITN 系統支持多種 semiotic classes ，即口語形式不同于書面形式的單詞或標記，需要規范化。例如日期、小數、基數、度量等。

Source

]]>

Aleksandra Antonova – NVIDIA 技術博客

構建基尼亞盧旺達語的自動語音識別模型

使用 NVIDIA NeMo 進行文本規范化和反向文本規范化