為全球語言用戶解鎖語音 AI 技術：熱門問答

語音技術正在無處不在地發展。但許多人正被一個以英語為中心、存在人口統計學偏見的算法世界拋在后面。Mozilla Common Voice（MCV）和NVIDIA正在合作，通過開發一個公共眾包多語言語音語料庫和開源預訓練模型來改變這一現狀，該語料庫目前是世界上同類語料庫中最大的。現在比以往任何時候都更容易開發自動語音識別（ASR）技術，以滿足多種語言的使用者。

這篇文章總結了來自于2022年由EM Lewis Jong主演的 Speech AI Summit 和 Mozilla Common Voice 以及NVIDIA 的 Caroline de Brito Gottlieb 在?Unlocking Speech AI Technology for Global Language Users 中提出的錄音講話。

是否存在多語言 NVIDIA NeMo 開源模型？

Caroline de Brito Gottlieb：要制作語音 AI，我們首先需要了解世界是如何使用語言的。由于單語言是世界范圍內的一種反常現象，因此 NVIDIA 的研究人員專注于為多語言環境創造最先進的人工智能。

NVIDIA 通過 NeMo 發布了其首款多語言和代碼切換/代碼混合語音識別模型，它可以將音頻樣本轉錄成英語、拉丁語/北美西班牙語，以及同一句子中使用的英語和西班牙語，這種現象被稱為代碼切換或代碼混合。NVIDIA 將很快在 NeMo 上為印度語提供多語言模型。

代碼的切換或混合在多語言社區和講多種方言或同一語言變體的社區中非常常見。這對現有的語音人工智能解決方案提出了獨特的挑戰。然而，開源 NeMo 模型是邁向人工智能的重要一步，它準確地反映和支持了全球社區在現實世界中如何實際使用語音。

數據集是否擴展到“語言”之外，包括特定領域的詞匯？例如，金融和醫療數據集可能有所不同

EM Lewis-Jong：MCV 語料庫中表示的領域一直由社區驅動，通過平臺創建數據集。這意味著不同的語言在其數據集中有不同的領域——有些可能主要涉及新聞和媒體，而另一些可能包含更多的教育文本。如果您想要增強 Common Voice 數據集中特定領域的覆蓋率，可以通過 GitHub 或者 Sentence Collector 工具。歡迎所有領域的貢獻。

MCV 正在積極重建和擴展句子收集器工具，使其更容易接收大量文本，并對其進行適當標記。預計 2023 年 4 月將出現這些變化。此外，該團隊一直在與 NVIDIA 和其他數據合作伙伴密切合作，以確保元數據模式盡可能具有互操作性。對普通語音語料庫進行領域標記是其中的一個重要部分。

Caroline de Brito Gottlieb：解釋特定領域的語言是一個關鍵的挑戰，尤其是在跨行業應用人工智能解決方案時。因此，NVIDIA Riva提供了多種技術，如單詞增強和詞匯擴展，以及定制 ASR 模型，以提高特定詞語的識別率。

我們的團隊主要將領域視為詞匯和術語。考慮到 GPU 、 FTP 等專業術語和首字母縮略詞的不同級別，僅此一項就構成了巨大的挑戰。但同樣重要的是，除了收集單個單詞之外，還要收集特定領域的數據，以捕捉語法或結構差異；例如，否定在臨床實踐指南中的表達方式。設計和管理特定領域的數據集是 Common Voice 和 NVIDIA 之間的一個活躍合作領域，我們很高興看到針對英語以外語言的特定領域 ASR 取得進展。

如何區分不同地區的西班牙語、英語、葡萄牙語和其他語言的不同版本？

EM Lewis-Jong：從歷史上看， MCV 沒有一個很好的系統來區分不同版本的語言。社區可以選擇創建一個全新的數據集（按語言組織），也可以使用重音字段。 2021 年， MCV 進行了一次深入的研究，發現了以下內容：

社區對變體的認識有限：沒有太多背景的新社區并不總是確定如何對自己進行分類。一旦他們決定是成為一個新的語言數據集還是保持口音，就很難改變主意。
數據集碎片：多樣化的社區，比如那些有大量散居人口的社區，可能會覺得他們需要完全分裂，建立一種全新的語言。這會對數據集進行分割，并混淆貢獻者。
身份和經驗：一些語言社區和貢獻者使用重音標簽，但可能會感到被邊緣化和被削弱。談論語言就是談論權力，有些人希望有能力以尊重和代表他們的方式識別他們的語言，而不是“口音”。
語言和拼寫多樣性：一些社區認為沒有適合他們的安排，因為他們的口語有多種書寫系統。目前， MCV 假設口語和書面語之間的關系為 1 : 1 。

由于這些原因，該團隊在平臺上啟用了一個名為 Variant 的新類別。這是為了幫助社區系統地區分語言，特別是支持擁有不同語言使用者的大型語言。

在可能的情況下，MCV使用BCP-47 codes來標記。BCP-47是一個靈活的系統，可以讓社區提取關鍵信息，如地區、方言和正字法。

例如，斯瓦希里語社區可能希望區分剛果斯瓦希里和奇姆維尼語。從歷史上看，在該平臺上，這將被定義為“口音”差異，盡管變體具有不同的詞匯和語法，并且不容易相互理解。換句話說，演講者可能很難理解彼此。

社區現在可以自由選擇是否以及如何使用變體標簽。 MCV 正在分階段將其推廣到語言社區。該團隊圍繞語言、變體和口音制定了新的定義，作為社區的有用指南。這些定義將隨著 MCV 社區的發展而演變。更多信息，請查看如何使 Common Voice 更具語言包容性。

成功部署用例的一些例子是什么？

EM Lewis-Jong：MCV 被世界上大多數最大科技公司的研究人員、工程師和數據科學家以及學術界、初創公司和民間社會使用。它每年被下載數十萬次。

團隊非常興奮的一些最近的用例包括：Kinyarwanda Mbaza chatbot，為新冠肺炎提供指南；泰語語言健康跟蹤，為視障人士提供可穿戴設備；像ChamaChat這樣的Kiswahili語言金融規劃應用，以及像LivHealth這樣的肯尼亞農民農業健康指導。

Caroline de Brito Gottlieb：NeMo – 使用 MCV 等數據集也得到了廣泛部署。Tarteel AI是一家專注于人工智能、信仰的初創公司，專注于宗教和教育技術。 Tarteel 團隊利用NVIDIA Riva和 NeMo AI 工具，通過在阿拉伯語數據上微調英語 ASR 模型，在阿拉伯語轉錄上實現 4% 的最先進的單詞錯誤率（ WER ）。這使 Tarteel 開發了世界上第一個古蘭經阿拉伯語 ASR ，提供了技術支持世界各地 18 億穆斯林社區通過實時反饋改進他們的古蘭經背誦。

2023 年 1 月，Riva 發布了一個開箱即用的針對阿拉伯語的 ASR 模型，可以無縫定制特定的方言、口音和域。另一個使用案例，即新加坡英語（或 Singlish），可參見為本地新加坡語音輕松定制語音 AI。

Mozilla 如何收集一種語言的通用語音數據集的多樣性屬性，如年齡和性別？

EM Lewis-Jong：MCV 使用戶能夠自我識別他們的剪輯，并將其與相關信息相關聯：變體（如果你的語言有）、口音（一個重要的多樣性屬性）、性別和年齡。今年， MCV 將擴大一些人口類別的選擇，特別是性別，以更具包容性。

這些信息將與您的剪輯相關聯，然后在數據集發布之前安全可靠地化名。你可以在通常的貢獻流中告訴 MCV 你的語言特征；但是，對于敏感的人口統計屬性，您必須創建一個帳戶。

微調特定語言時，最好使用哪種類型的 ASR 模型？

Caroline de Brito Gottlieb： NeMo 是一個帶有預訓練模型的工具包，使您能夠根據自己的語言和特定用例進行微調。最先進的預訓練 NeMo 模型可在NGC，用于 GPU 優化軟件的 NVIDIA 集線器，以及HuggingFace.查看廣泛的tutorials這一切都可以繼續下去Google Colab，以及一整套example scripts支持多 GPU /多節點訓練。

除了 NeMo ASR 中已提供的語言外，社區成員還通過微調 NeMo 基礎模型，獲得了新語言、方言、變體和重音的最新結果。大部分工作都使用了 NVIDIA 預訓練的英語 ASR 模型，但我鼓勵您嘗試對 NeMo 模型進行微調，以獲得與您正在研究的語言（Glottolog）最相關的語言。

我的母語約魯巴語沒有出現在 MCV 上。如何將它與不同的方言一起包含進來？

EM Lewis-Jong：任何人都可以向 MCV 添加新語言。請聯系我們以添加您的語言。

這個過程分為兩個階段：翻譯網站和收集句子。

翻譯該網站涉及一個名為Pontoon的翻譯工具。蓬頓支持多種語言，但如果沒有您的語言，您可以請求添加您的語言。然后，為了使該語言可用于公共語音項目，請求在GitHub上添加新語言。了解有關網站翻譯的更多細節以及如何使用Pontoon。

收集句子可以通過添加少量句子，或者使用GitHub進行批量導入。句子需要滿足CC0（或公共領域）的要求，或者你可以自己編寫。了解更多關于句子收集和使用句子收集器的信息，請參閱有關句子收集的更多信息。

數據擴充是否考慮到了對更多多樣性的需求？

Caroline de Brito Gottlieb：語音人工智能模型需要對各種環境因素和上下文變化保持穩健，尤其是當團隊擴展到更多的語言、社區，從而擴展到上下文時。然而，真實的數據并不總是能夠代表這種多樣性。

數據增強是通過模擬語音數據特征來增強數據集大小和多樣性的強大工具。當應用于訓練數據時，由此產生的擴展或多樣化的數據集可以幫助模型更好地推廣到新的場景和看不見的數據。

當數據擴充技術應用于用于測試的數據集時，它可以幫助理解模型在擴展的各種語音數據上下文中的性能。 NeMo 提供多種數據增強技術，如噪聲擾動、語音擾動和時間拉伸，可用于訓練和測試數據。

MCV 中的數據集是否支持不同的口音，例如說德語帶法國口音？

EM Lewis-Jong：每個演講者都有自己獨特的口音，歡迎所有人。截至 2021 年 12 月，你可以輕松地在個人主頁上添加多種口音。

重音不受他人選擇的限制。你可以根據自己的條件規定你的口音，讓貢獻者更容易以自然的方式快速識別他們的演講。

例如，如果你是一名來自德國的法語使用者，在科特迪瓦學習法語，你可以在提交的法語剪輯中添加“德語”和“科特迪瓦”等口音。

總結

為了創建一個更健康的人工智能生態系統，社區需要有意義地參與數據創建過程。此外，開源語音數據集和 ASR 模型使每個人都能進行創新。

如果你想為多語言語音語料庫做出貢獻，請查看NVIDIA NeMo和Mozilla Common Voice，參與其中。

為全球語言用戶解鎖語音 AI 技術：熱門問答

是否存在多語言 NVIDIA NeMo 開源模型？

數據集是否擴展到“語言”之外，包括特定領域的詞匯？例如，金融和醫療數據集可能有所不同

如何區分不同地區的西班牙語、英語、葡萄牙語和其他語言的不同版本？

成功部署用例的一些例子是什么？

Mozilla 如何收集一種語言的通用語音數據集的多樣性屬性，如年齡和性別？

微調特定語言時，最好使用哪種類型的 ASR 模型？

我的母語約魯巴語沒有出現在 MCV 上。如何將它與不同的方言一起包含進來？

數據擴充是否考慮到了對更多多樣性的需求？

MCV 中的數據集是否支持不同的口音，例如說德語帶法國口音？

總結

相關資源

標簽

關于作者

為全球語言用戶解鎖語音 AI 技術：熱門問答

是否存在多語言 NVIDIA NeMo 開源模型？

數據集是否擴展到“語言”之外，包括特定領域的詞匯？例如，金融和醫療數據集可能有所不同

如何區分不同地區的西班牙語、英語、葡萄牙語和其他語言的不同版本？

成功部署用例的一些例子是什么？

Mozilla 如何收集一種語言的通用語音數據集的多樣性屬性，如年齡和性別？

微調特定語言時，最好使用哪種類型的 ASR 模型？

我的母語約魯巴語沒有出現在 MCV 上。如何將它與不同的方言一起包含進來？

數據擴充是否考慮到了對更多多樣性的需求？

MCV 中的數據集是否支持不同的口音，例如說德語帶法國口音？

總結

相關資源

標簽

關于作者

相關文章

NVIDIA NeMo ASR 發布了對荷蘭語和波斯語的新支持

NVIDIA 和 Mozilla 發布了通用語音數據集，首次超過 13000 小時

相關文章

NVIDIA NeMo T5-TTS 模型助力解決語音合成語言模型中的幻覺問題

借助 NVIDIA NeMo Parakeet ASR 模型突破語音識別的界限

借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度

NVIDIA NeMo Canary 模型的語音識別和翻譯新標準

NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄