• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 對話式人工智能

    跨音頻類型實現先進的零樣本波形音頻生成

    令人驚嘆的音頻內容是虛擬世界的重要組成部分。音頻生成式 AI 在創建此類內容方面發揮著關鍵作用,NVIDIA 正在不斷突破這一研究領域的極限。BigVGAN 是與 NVIDIA 應用深度學習研究團隊NVIDIA NeMo 團隊合作開發的生成式 AI 模型,專門用于音頻波形合成,可實現先進的結果。BigVGAN 生成波形的速度比實時快幾個數量級,并且在語音、環境聲音和音樂等各種音頻類型中表現出強大的穩健性。

    本文將討論 BigVGAN v2,它可以顯著提高速度和質量,助力打造所生成的音頻與真實音頻相去甚遠的未來。BigVGAN v2 的亮點包括:

    • 先進的音頻質量,由多種音頻類型的不同指標來衡量。
    • 利用經過優化的 CUDA 內核,合成速度最高可提升 3 倍
    • 即用型預訓練檢查點,支持多種音頻配置。
    • 支持高達 44 kHz 的采樣率,這是人類能夠聽到的最高聲音頻率

    BigVGAN:通用神經聲碼器

    BigVGAN 是一款通用神經聲碼器,專門用于使用 Mel spectrograms 作為輸入合成音頻波形。神經聲碼器是音頻生成式 AI 中的基石方法,可從緊湊型聲學特征(如 Mel spectrogram)生成聲波。BigVGAN 可通過 GitHub 上的 NVIDIA/BigVGAN 以開源形式提供。

    BigVGAN 是一種全卷積架構(Figure 1),具有多個使用轉置卷積的上采樣塊,然后是多個殘差擴展卷積層。它具有名為 Anti-Aliased Multi-Periodicity Composition(AMP)的新型模塊,專為生成波形而設計。

    AMP 專注于合成高頻和周期性聲波,從音頻信號處理原理中汲取靈感。它應用了名為 Snake 的周期激活函數,該函數可在生成周期性聲波時為架構提供感應偏差。它還應用了抗鋸齒濾波器,以減少生成的波形中不希望出現的偽影。如需了解詳情,請參閱 BigVGAN:采用大規模訓練的通用神經聲碼器

    The BigVGAN diagram details the flow and interaction between different layers and modules within the BigVGAN framework, highlighting the innovative use of periodic activation functions and filtering methods to improve synthesis fidelity.
    圖 1. BigVGAN 架構和使用周期激活函數 (Snake1d) 的抗鋸齒多周期合成模塊 (AMP),以及用于通用波形合成的低通濾波器。

    生成世界上的每一種聲音

    波形音頻生成是構建虛擬世界的關鍵組成部分,長期以來一直是一個活躍的研究領域。盡管波形音頻生成很重要,但當前的聲編碼方法通常會在高頻聲波中生成缺乏精細細節的音頻。BigVGAN v2 有效地解決了這個問題,可以提供具有增強精細細節的高質量音頻。

    BigVGAN v2 使用 NVIDIA A100 Tensor Core GPU 進行訓練,其音頻數據比上一代產品多出 100 多倍,該數據集旨在封裝世界上的每種聲音,包括多種語言的語音、來自日常物體的環境聲音以及各種儀器。因此,BigVGAN v2 可以使用單個模型從多個領域生成高質量聲波。

    下面,以 24 kHz 采樣率收聽 BigVGAN 和 BigVGAN v2 的真實錄音和生成樣本的音頻比較。BigVGAN v2 生成高質量聲波。

    Recordings (24 kHz)
    BigVGAN
    BigVGAN v2

    達到人耳能檢測到的最高頻率

    之前的波形合成器的采樣率僅限于在 22 kHz 到 24 kHz 之間。然而,BigVGAN v2 將此范圍擴展到 44 kHz,封裝了整個人類聽覺頻譜。這與人耳可以檢測到的最高頻率相匹配,而采樣率不超過 40 kHz。因此,BigVGAN v2 可以重現全面的音景,例如捕獲所有內容,從鼓聲的強勁混響到音樂中鈴聲的清晰閃爍等。

    下面,請聽兩個 BigVGAN v2 模型的真實錄音和生成樣本的音頻比較,一個模型的采樣率為 24 kHz,另一個模型的采樣率為 44 kHz。

    Recordings (44 kHz)
    BigVGAN v2 (24 kHz)
    BigVGAN v2 (44 kHz)

    使用自定義 CUDA 內核加快合成速度

    與其前身相比,BigVGAN v2 還通過使用自定義 CUDA 內核加速了合成速度,其推理速度比原始 BigVGAN 快 3 倍。為 BigVGAN v2 編寫的優化推理 CUDA 內核可以在單個 NVIDIA A100 GPU 上生成音頻波形,速度比實時快 240 倍。

    BigVGAN v2 音頻質量結果

    與開源前一代產品相比,BigVGAN v2 24 kHz 的語音和通用音頻音頻質量更勝一籌,并且大幅提升(圖 2 和圖 3)。

    The quality of generated waveforms metrics obtained for BigVGAN v2 24 kHz and BigVGAN models tested on LibriTTS-dev speech data.
    圖 2. LibriTTS-dev 語音數據上的 BigVGAN v2 24 kHz 與 BigVGAN 結果對比。
    The quality of generated waveforms metrics obtained for BigVGAN v2 24 kHz and BigVGAN models tested on MUSDB18-HQ music data.
    圖 3. 基于 MUSDB18-HQ 音樂數據的 BigVGAN v2 24 kHz 與 BigVGAN 模型結果對比。

    此外,全新 BigVGAN v2 44 kHz 型號的音頻質量可與開源高質量神經音頻編解碼器 Descript Audio Codec (.dac) 相媲美(圖 4 和 5)。

    The quality of generated waveforms metrics obtained for BigVGAN v2 44 kHz and Descript Audio Codec models tested on HiFi-TTS-dev speech data.
    圖 4. 使用 HiFi-TTS-dev 語音數據的 BigVGAN v2 44 kHz 與 Descript Audio Codec 結果對比。
    The quality of generated waveforms metrics obtained for BigVGAN v2 44 kHz and Descript Audio Codec (DAC) models tested on MUSDB18-HQ music data.
    圖 5. BigVGAN v2 44 kHz 與使用 MUSDB18-HQ 音樂數據的 Descript Audio Codec 結果對比。

    所有結果表明,所生成波形的質量與以下指標相關:

    結束語

    NVIDIA 致力于提供人人都能使用的出色音頻生成式 AI。BigVGAN v2 的發布將神經聲碼器技術和音頻質量提升到新的高度,甚至可以達到人類聽覺感知的極限。

    BigVGAN v2 在音頻合成領域樹立了新標準,可為所有音頻類型提供先進的質量,并覆蓋人類的全方位聽力。其合成速度現在比最初的 BigVGAN 快3倍,確保對各種音頻配置進行高效處理。

    在深入了解 BigVGAN v2 之前,我們鼓勵用戶查看模型卡,以獲得無縫的體驗。

    ?

    0

    標簽

    人人超碰97caoporen国产