使用 FastConformer 混合傳感器 CTC BPE 實現強大喬治亞語自動語音識別系統

Mon, 05 Aug 2024 05:22:41 +0000

由于數據資源有限，為代表性不足的語言構建有效的自動語音識別（automatic speech recognition，ASR）模型面臨獨特的挑戰。在本文中，我將討論準備數據集、配置模型和有效訓練模型的最佳實踐。我還將討論評估指標和遇到的挑戰。通過遵循這些實踐，您可以在數據資源有限的情況下，以機密方式為 Georgian 語或任何其他語言開發自己的高質量 ASR 模型。 Mozilla Common Voice (MCV) 是一項旨在實現更具包容性語音技術的開源計劃，可提供各種 Georgian 語音數據。喬治亞語的 MCV 數據集大約包括：這些經過驗證的數據總計約為 116.6 小時，對于訓練穩健的自動語音識別（ASR）模型而言，這些數據仍然很小。適合此類模型的數據集從 250 小時開始算起。有關更多信息，請參閱示例：

Source

]]>

Sofia Kostandian – NVIDIA 技術博客

使用 FastConformer 混合傳感器 CTC BPE 實現強大喬治亞語自動語音識別系統