• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    對話式人工智能

    NVIDIA NeMo T5-TTS 模型助力解決語音合成語言模型中的幻覺問題

    NVIDIA NeMo 發布了 T5-TTS 模型,這是文本轉語音 (TTS) 技術的一項重大進步。基于 大型語言模型 (LLM),T5-TTS 生成更準確、更自然的語音。通過改進文本和音頻之間的對齊,T5-TTS 消除了重復口語和跳過文本等幻覺。此外,與其他開源模型如 BarkSpeechT5 相比,T5-TTS 可將單詞發音錯誤減少到原來的 1/2。

    收聽 T5-TTS 模型的音頻示例。

    NVIDIA NeMo 是一個端到端平臺,可以隨時隨地在本地和云端大規模開發多模態 生成式 AI 模型。

    LLM 在語音合成中扮演著重要的角色

    LLM 憑借其出色的理解和生成一致性文本的能力徹底改變了 自然語言處理 (NLP)。最近,LLM 在語音領域得到廣泛應用,使用大量數據來捕捉人類語音模式和色調的細微差別。基于 LLM 的語音合成模型產生的語音不僅更自然,而且更具表現力,為各行各業的應用開辟了無限可能。

    然而,與在文本領域中的使用類似,語音 LLM 面臨幻境挑戰,這可能會阻礙其在現實世界中的部署。

    T5-TTS 模型概述

    T5-TTS 模型利用編碼器 – 解碼器 Transformer 架構進行語音合成,編碼器處理文本輸入,自動回歸解碼器從目標說話者那里獲取參考語音提示。然后,自動回歸解碼器通過 Transformer 的交叉注意力頭關注編碼器的輸出來生成語音令牌,這些交叉注意力頭隱式學習對齊文本和語音。但是,當輸入文本包含重復的單詞時,它們的可靠性會受到損害。

    Diagram of the NVIDIA NeMo T5-TTS model. On the left: The T5-TTS model processes input text tokens and acoustic codes from reference audio to predict the acoustic codes for the target audio. On the right: The cross-attention scores can be guided to achieve robust alignment between text and speech.
    圖 1.NVIDIA NeMo T5-TTS 模型及其對齊過程概述

    應對幻覺挑戰

    當生成的語音偏離預期文本時,TTS 中就會出現幻覺,導致從細微發音錯誤到完全錯誤的單詞等錯誤,這些不準確之處可能會損害 TTS 系統在輔助技術、客戶服務和內容創建等關鍵應用中的可靠性。

    T5-TTS 模型通過更高效地將文本輸入與相應的語音輸出對齊來解決這一問題,從而顯著減少幻覺。通過應用 單調比先驗連接主義時間分類(CTC)損失,生成的語音緊密匹配預期文本,從而實現更可靠、更準確的 TTS 系統。對于單詞發音,T5-TTS 模型比 Bark 少 2 倍錯誤,比 VALLE-X(開源實現) 少 1.8 倍錯誤,比 SpeechT5 少 1.5 倍錯誤(圖 2)。

    Bar chart illustrating the intelligibility metrics of synthesized speech using various LLM-based TTS models on 100 challenging text inputs. The lower character error rate (CER) and word error rate (WER) for T5-TTS indicate that our alignment learning procedure enhances the robustness of our TTS model when handling challenging text inputs.
    圖 2.使用基于 LLM 的不同 TTS 模型對 100 個具有挑戰性的文本輸入進行合成語音的可理解性指標

    研究的影響和未來考慮因素

    NVIDIA NeMo 發布的 T5-TTS 模型標志著 TTS 系統的重大進步。該模型通過有效解決幻覺問題,為更可靠、更高質量的語音合成奠定了基礎,增強了各種應用的用戶體驗。

    展望未來,NVIDIA NeMo 團隊計劃通過擴展語言支持、提高 T5-TTS 模型捕捉不同語音模式的能力,以及將其集成到更廣泛的 NLP 框架中,進一步優化 T5-TTS 模型。

    探索 NVIDIA NeMo T5-TTS 模型

    T5-TTS 模型代表著在實現更準確、更自然的文本到語音合成方面的重大突破,其學習穩健文本和語音比對的創新方法在該領域樹立了新的基準,有望改變我們與 TTS 技術的交互方式,并從 TTS 技術中受益。

    要訪問 T5-TTS 模型并開始探索其潛力,請訪問 GitHub 上的 NVIDIA/NeMo。無論您是研究人員、開發者還是發燒玩家,這個功能強大的工具都為文本轉語音技術領域的創新和進步提供了無數可能性。如需了解更多信息,請參閱 《通過學習單調對齊提高基于 LLM 的語音合成的可靠性》

    致謝

    我們要感謝所有為這項工作做出貢獻的模型作者和合作者,包括 Paarth Neekhara、Shehzeen Hussain、Subhankar Ghosh、Jason Li、Boris Ginsburg、Rafael Valle 和 Rohan Badlani。

    0

    標簽

    人人超碰97caoporen国产