基于 NVIDIA NeMo 的多語言和代碼切換自動語音識別

Tue, 31 Jan 2023 07:11:46 +0000

多語言自動語音識別（ ASR ）模型因其能夠以多種語言轉錄語音而獲得了極大的興趣。這是由不斷增長的多語言社區以及減少復雜性的需求所推動的。您只需要一個模型來處理多種語言。這篇文章解釋了如何使用 NGC 目錄中的預訓練多語言 NeMo ASR 模型。我們還分享了創建自己的多語言數據集和訓練自己的模型的最佳實踐。 ASR 模型在高級別上將語音轉換為文本。在推斷時，它們使用音頻文件作為輸入，并生成文本標記或字符作為輸出（圖 1 ）。更準確地說，在每個音頻采樣時間步，該模型輸出總共標記中每一個的對數概率。在培訓時，您提供文本記錄以及音頻文件作為輸入。當模型訓練時，它使用成績單來計算訓練損失。它逐漸減少了這種損失，并提高了其權重，使其輸出成績單盡可能接近原始。多語言環境為這幅圖增添了幾個方面。在推斷過程中，您通常不知道音頻中包含的語言。但是，

Source

]]>

Dima Rekesh – NVIDIA 技術博客

基于 NVIDIA NeMo 的多語言和代碼切換自動語音識別