用蒸餾法加速文本到語音的擴散模型

Fri, 01 Sep 2023 05:29:25 +0000

每年，作為課程的一部分，波蘭華沙大學的學生都會在 NVIDIA 華沙辦事處工程師的監督下，就深度學習和加速計算中的挑戰性問題開展工作。我們展示了三位理學碩士學生——Alicja Ziarko、Pawe? Pawlik 和 Micha? 的TorToiSe，一個多階段、基于擴散的文本到語音（TTS）模型。 Alicja、Pawe? 和 Micha? 首先了解了語音合成和擴散模型的最新進展。他們選擇了 combination，這是無分類器引導和漸進式蒸餾的一部分，在計算機視覺中表現良好，并將其應用于語音合成。在不降低語音質量的情況下，他們將擴散延遲降低了 5 倍。小型感知語音測試證實了這一結果。值得注意的是，這種方法不需要從原始模型開始進行昂貴的訓練。自從WaveNet 在 2016 年出現以來，神經網絡已經成為語音合成的主要模型。在一些簡單的應用中，

Source

]]>

Daniel Korzekwa – NVIDIA 技術博客

用蒸餾法加速文本到語音的擴散模型