今天, NVIDIA 發布了世界級的語音識別功能,可為企業生成高精度的轉錄本, NeMo 1 . 0 包括用于民主化和加速對話人工智能研究的最新語音和語言模型。
世界級語音識別
NVIDIA Riva 世界級語音識別是一種現成的語音服務,可以輕松部署在任何云或數據中心。企業可以使用 遷移學習工具包 ( TLT )跨各種行業和用例定制語音服務。 通過 TLT ,開發人員可以將定制語音和語言模型的開發速度提高 10 倍。
語音識別模型是高度精確的,并在電信、金融、醫療保健、教育以及各種專有和開源數據集的領域無關詞匯上進行訓練。此外,它還接受了噪聲數據、多種采樣率(包括呼叫中心 8khz )、各種口音和對話的訓練,所有這些都有助于提高模型的準確性。
使用 Riva 語音服務,您可以在 10 毫秒內生成一個轉錄。它在多個專有數據集上進行評估,準確率超過 90% ,并且可以適應各種各樣的用例和領域。它可以在幾個應用程序中使用,例如在呼叫中心、視頻會議和虛擬助理中轉錄音頻。
T-Mobile 是美國最大的電信運營商之一,它利用 Riva 提供卓越的客戶服務。
T-Mobile 負責產品和技術的副總裁 Matthew Davis 說:“借助 NVIDIA Riva 服務,利用 T-Mobile 數據進行微調,我們正在構建產品,以幫助我們實時解決客戶問題。”。
“在評估了幾種自動語音識別解決方案后, T-Mobile 發現 Riva 能夠以極低的延遲提供高質量的模型,實現客戶喜愛的體驗。”
您可以從 NGC 目錄 下載 Riva 語音服務,現在就開始構建自己的轉錄應用程序。
NeMo 1 . 0 版本
NVIDIA NeMo 是一個開源工具包,供研究人員開發最先進的( SOTA )會話人工智能模型。它包括自動語音識別( ASR )、自然語言處理( NLP )和文本到語音( TTS )的集合,使研究人員能夠快速試驗新的 SOTA 神經網絡,以便創建新的模型或在現有模型的基礎上進行構建。
PyTorch 與 NeMo 、 PyTorch Lightning 和 Hydra 框架緊密耦合。這些集成使研究人員能夠結合 PyTorch 和 PyTorch 閃電模塊開發和使用 NeMo 模型和模塊。此外,借助 Hydra 框架和 NeMo ,研究人員可以輕松定制復雜的會話人工智能模型。
此版本的亮點包括:
- 增加了對多種語言的語音識別支持,以及新的 CitriNet 和 Conformer CTC ASR 模型
- 從英語到西班牙語、俄語、普通話、德語和法語的五種語言支持雙向神經機器翻譯模型
- 新的語音合成模型,如 Fastpitch 、 Talknet 、 Fastspeech2 ,以及端到端模型,如 Fastpitch + HiFiGAN 和 Fastspeech2 + HiFiGAN
- 用于自動執行 反文本規范化和反規范化 以及 基于 CTC 分割的數據集生成 和 探索 語音數據集的功能
此外,大多數 NeMo 模型可以導出到 NVIDIA Riva ,用于產品部署和高性能推斷。
從 NVIDIA 開發者博客 了解更多關于 NeMo 1 . 0 中包含的內容。 NeMo 是開源的,可以從 NGC 目錄 和 GitHub 下載和使用。
?