Daniel Korzekwa – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 07 Sep 2023 05:32:41 +0000 zh-CN hourly 1 196178272 用蒸餾法加速文本到語音的擴散模型 http://www.open-lab.net/zh-cn/blog/speeding-up-text-to-speech-diffusion-models-by-distillation/ Fri, 01 Sep 2023 05:29:25 +0000 http://www.open-lab.net/zh-cn/blog/?p=7778 Continued]]> 每年,作為課程的一部分,波蘭華沙大學的學生都會在 NVIDIA 華沙辦事處工程師的監督下,就深度學習和加速計算中的挑戰性問題開展工作。我們展示了三位理學碩士學生——Alicja Ziarko、Pawe? Pawlik 和 Micha? 的TorToiSe,一個多階段、基于擴散的文本到語音(TTS)模型。 Alicja、Pawe? 和 Micha? 首先了解了語音合成和擴散模型的最新進展。他們選擇了 combination,這是 無分類器引導 和 漸進式蒸餾 的一部分,在計算機視覺中表現良好,并將其應用于語音合成。在不降低語音質量的情況下,他們將擴散延遲降低了 5 倍。小型感知語音測試證實了這一結果。值得注意的是,這種方法不需要從原始模型開始進行昂貴的訓練。 自從WaveNet 在 2016 年出現以來,神經網絡已經成為語音合成的主要模型。在一些簡單的應用中,

Source

]]>
7778
人人超碰97caoporen国产