Sofia Kostandian – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 09 Aug 2024 05:31:06 +0000
zh-CN
hourly
1
196178272 -
使用 FastConformer 混合傳感器 CTC BPE 實現強大喬治亞語自動語音識別系統
http://www.open-lab.net/zh-cn/blog/developing-robust-georgian-automatic-speech-recognition-with-fastconformer-hybrid-transducer-ctc-bpe/
Mon, 05 Aug 2024 05:22:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=10930
Continued]]>
由于數據資源有限,為代表性不足的語言構建有效的自動語音識別(automatic speech recognition,ASR)模型面臨獨特的挑戰。 在本文中,我將討論準備數據集、配置模型和有效訓練模型的最佳實踐。我還將討論評估指標和遇到的挑戰。通過遵循這些實踐,您可以在數據資源有限的情況下,以機密方式為 Georgian 語或任何其他語言開發自己的高質量 ASR 模型。 Mozilla Common Voice (MCV) 是一項旨在實現更具包容性語音技術的開源計劃,可提供各種 Georgian 語音數據。 喬治亞語的 MCV 數據集大約包括: 這些經過驗證的數據總計約為 116.6 小時,對于訓練穩健的自動語音識別(ASR)模型而言,這些數據仍然很小。適合此類模型的數據集從 250 小時開始算起。有關更多信息,請參閱示例:
Source
]]>
10930
人人超碰97caoporen国产