語音 AI – NVIDIA 技術博客

語音 AI – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Fri, 28 Feb 2025 06:30:03 +0000 zh-CN hourly 1 196178272 在 NVIDIA GPU 上訓練的 Microsoft Phi SLM 的多模態最新進展 http://www.open-lab.net/zh-cn/blog/latest-multimodal-addition-to-microsoft-phi-slms-trained-on-nvidia-gpus/ Wed, 26 Feb 2025 06:19:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=13020 Continued]]> 大語言模型（LLMs）已滲透到各行各業，并改變了技術潛力。但是，由于規模龐大，它們對于許多公司目前面臨的資源限制來說并不切實際。小語言模型（SLMs）的興起通過創建資源占用更小的模型，將質量和成本聯系起來。SLMs 是語言模型的一個子集，這些模型傾向于專注于特定領域，并使用更簡單的神經架構構建。隨著模型的發展模仿人類感知周圍環境的方式，模型必須接受多種形式的多模態數據。 Microsoft 宣布在 Phi 系列中推出新一代開放式 SLM，并新增兩項功能： Phi-4-multimodal 是第一個加入該系列的多模態模型，接受文本、音頻和圖像數據輸入。這些模型足夠小，可以在設備上部署。此版本基于 2024 年 12 月發布的 Phi-4 14B 參數 SLM 的研究版本構建而成，可用于兩個新的較小模型的商業用途。

]]>

13020

使用 Whisper 和 Canary 架構部署 NVIDIA Riva 多語種 ASR，同時選擇性地停用 NMT http://www.open-lab.net/zh-cn/blog/deploying-nvidia-riva-multilingual-asr-with-whisper-and-canary-architectures-while-selectively-deactivating-nmt/ Thu, 20 Feb 2025 04:05:01 +0000 http://www.open-lab.net/zh-cn/blog/?p=12956 Continued]]> NVIDIA 持續開發自動語音識別 (ASR) 模型，這些模型在業內樹立了基準。早期版本的 NVIDIA Riva 是一種適用于 ASR 、 TTS 和 NMT 的 GPU 加速語音和翻譯 AI 微服務的集合，支持基于 Conformer 架構的英語-西班牙語和英語-日語代碼交換 ASR 模型，以及基于 Parakeet 架構的支持 EMEA 地區多種語言（即英國英語、歐洲西班牙語、法語、意大利語、標準德語和亞美尼亞語）的模型。最近，NVIDIA 發布了 Riva 2.18.0 容器和 SDK ，以不斷改進其語音 AI 模型。在此新版本中，我們現在提供以下服務：自動語音翻譯（AST）是將一種語言的語音翻譯為另一種語言的文本，而無需以第一種語言進行中間轉錄。

]]>

12956

使用 NVIDIA NIM 微服務實現語音和翻譯功能，快速賦予應用語音能力 http://www.open-lab.net/zh-cn/blog/quickly-voice-your-apps-with-nvidia-nim-microservices-for-speech-and-translation/ Wed, 18 Sep 2024 07:42:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=11374 Continued]]> NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分，為自行托管的 GPU 加速推理微服務提供容器，用于跨云、數據中心和工作站的預訓練和自定義 AI 模型。NIM 微服務現已支持語音和翻譯。新的語音和翻譯微服務利用 NVIDIA Riva ，提供自動語音識別（ASR）、神經網絡機器翻譯（NMT）和文本轉語音（TTS）服務。通過 NVIDIA 語音和翻譯 NIM 微服務，將多語種語音功能集成到您的應用中，不僅能提供先進的自動語音識別（ASR）、神經機器翻譯（NMT）和文本轉語音（TTS），還可增強全球用戶體驗和可訪問性。無論您是構建客戶服務機器人、交互式語音助手，還是構建多語種內容平臺，這些 NIM 微服務都針對大規模高性能 AI 推理進行了優化，并提供準確性和靈活性，以盡可能減少開發工作量為您的應用提供語音支持。

]]>

11374

跨音頻類型實現先進的零樣本波形音頻生成 http://www.open-lab.net/zh-cn/blog/achieving-state-of-the-art-zero-shot-waveform-audio-generation-across-audio-types/ Thu, 05 Sep 2024 04:30:38 +0000 http://www.open-lab.net/zh-cn/blog/?p=11172 Continued]]> 令人驚嘆的音頻內容是虛擬世界的重要組成部分。音頻生成式 AI 在創建此類內容方面發揮著關鍵作用，NVIDIA 正在不斷突破這一研究領域的極限。BigVGAN 是與 NVIDIA 應用深度學習研究團隊和 NVIDIA NeMo 團隊合作開發的生成式 AI 模型，專門用于音頻波形合成，可實現先進的結果。BigVGAN 生成波形的速度比實時快幾個數量級，并且在語音、環境聲音和音樂等各種音頻類型中表現出強大的穩健性。本文將討論 BigVGAN v2，它可以顯著提高速度和質量，助力打造所生成的音頻與真實音頻相去甚遠的未來。BigVGAN v2 的亮點包括： BigVGAN 是一款通用神經聲碼器，專門用于使用 Mel spectrograms 作為輸入合成音頻波形。神經聲碼器是音頻生成式 AI 中的基石方法，可從緊湊型聲學特征（如 Mel spectrogram）生成聲波。

]]>

11172

NVIDIA NeMo T5-TTS 模型助力解決語音合成語言模型中的幻覺問題 http://www.open-lab.net/zh-cn/blog/addressing-hallucinations-in-speech-synthesis-llms-with-the-nvidia-nemo-t5-tts-model/ Tue, 02 Jul 2024 04:44:49 +0000 http://www.open-lab.net/zh-cn/blog/?p=10527 Continued]]> NVIDIA NeMo 發布了 T5-TTS 模型，這是文本轉語音 (TTS) 技術的一項重大進步。基于大型語言模型 (LLM)，T5-TTS 生成更準確、更自然的語音。通過改進文本和音頻之間的對齊，T5-TTS 消除了重復口語和跳過文本等幻覺。此外，與其他開源模型如 Bark 和 SpeechT5 相比，T5-TTS 可將單詞發音錯誤減少到原來的 1/2。收聽 T5-TTS 模型的音頻示例。 NVIDIA NeMo 是一個端到端平臺，可以隨時隨地在本地和云端大規模開發多模態生成式 AI 模型。 LLM 憑借其出色的理解和生成一致性文本的能力徹底改變了自然語言處理 (NLP)。最近，LLM 在語音領域得到廣泛應用，使用大量數據來捕捉人類語音模式和色調的細微差別。基于 LLM 的語音合成模型產生的語音不僅更自然，而且更具表現力，為各行各業的應用開辟了無限可能。

]]>

10527

借助 NVIDIA NeMo Parakeet ASR 模型突破語音識別的界限 http://www.open-lab.net/zh-cn/blog/pushing-the-boundaries-of-speech-recognition-with-nemo-parakeet-asr-models/ Thu, 18 Apr 2024 05:58:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=9689 Continued]]> NVIDIA NeMo Parakeet 是一個端到端平臺，用于在任何地方（任何云端和本地）大規模開發多模態生成式 AI 模型，包括自動語音識別 (ASR) 模型。這些最先進的 ASR 模型是與 Suno.ai 合作開發的，能夠極其準確地轉錄英語口語。本文詳細介紹了 Parakeet ASR 模型在語音識別領域的新突破。四個已發布的 Parakeet 模型基于遞歸神經網絡傳感器 (RNNT) 或 connectionist Temporal Classification (CTC) 解碼器。它們擁有 0.6 B 和 11 B 參數，可處理各種音頻環境，表現出對音樂和靜音等非語音片段的彈性。這些模型基于廣泛的 64000 小時公有和專有數據集進行訓練，在各種口音和方言、人聲范圍以及不同的域和噪音條件下表現出出色的準確性。

]]>

9689

借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度 http://www.open-lab.net/zh-cn/blog/turbocharge-asr-accuracy-and-speed-with-nvidia-nemo-parakeet-tdt/ Thu, 18 Apr 2024 05:52:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=9683 Continued]]> NVIDIA NeMo 是一個端到端平臺，用于在任何云和本地的任何地方大規模開發多模式生成 AI 模型，最近發布了 Parakeet-TDT。Parakeet-TDT 是這個新成員的其中一個，它與之前的最佳模型相比，具有更高的準確度和 64%的速度。NeMo ASR Parakeet 模型系列包括 Parakeet-TDT 和 NeMo ASR Parakeet 模型系列。本文介紹了 Parakeet-TDT，以及如何使用它生成具有高實時系數的高精度轉錄，在一秒內處理 10 分鐘的音頻。 Parakeet-TDT (令牌和持續時間傳感器) 是 NVIDIA 開發的一種新型序列建模架構。最新研究表明，與傳統傳感器相比較，TDT 模型在速度和識別精度的方面有顯著提高。有關更多詳細信息，請參閱此論文。從正確性角度來看，具有 11 億個參數的 Parakeet-TDT…

]]>

9683

NVIDIA NeMo Canary 模型的語音識別和翻譯新標準 http://www.open-lab.net/zh-cn/blog/new-standard-for-speech-recognition-and-translation-from-the-nvidia-nemo-canary-model/ Thu, 18 Apr 2024 05:46:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=9677 Continued]]> NVIDIA NeMo 是一種端到端平臺，用于開發和部署多模態生成式 AI 模型。它可以隨時隨地進行大規模模型部署。 NeMo 團隊最近發布了 Canary，這是一款多語言模型，可轉錄英語、西班牙語、德語和法語的語音，并添加標點符號和大寫。Canary 還提供英語和其他三種受支持語言之間的雙向翻譯。本文詳細介紹了 Canary 模型及其使用方法。 Canary 模型在 HuggingFace 開放 ASR 排行榜中平均詞錯誤率 (WER) 為 6.67%，其性能遠遠優于所有其他開源模型。 Canary 結合使用公共和內部數據進行訓練。它使用 85000 小時的轉錄語音來學習語音識別。為了教授 Canary 翻譯，我們使用 NVIDIA NeMo 文本翻譯模型生成所有支持語言的原始轉錄的翻譯。盡管數據量比類似規模的模型少一個數量級，

]]>

9677

NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄 http://www.open-lab.net/zh-cn/blog/nvidia-speech-and-translation-ai-models-set-records-for-speed-and-accuracy/ Tue, 19 Mar 2024 06:06:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=9349 Continued]]> NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及 NVIDIA Canary 多語種、多任務 ASR 和翻譯模型在 Hugging Face 開放 ASR 排行榜上表現出色。此外，多語種 P-Flow 基于文本轉語音 (TTS) 的模型在 LIMMITS 的 24 項挑戰中取得了優異成績，使用簡短的音頻片段將說話者的聲音合成為 7 種語言。本文詳細介紹了其中一些出色的模型如何在語音和翻譯 AI (從語音識別到自定義語音創建) 領域開辟新天地。 NVIDIA Parakeet 模型系列包括 Parakeet CTC 1.1 B, Parakeet CTC 0.6 B, Parakeet RNNT 1.1 B, Parakeet RNNT 0.6 B 以及 Parakeet-TDT…

]]>

9349

NVIDIA NeMo ASR 發布了對荷蘭語和波斯語的新支持 http://www.open-lab.net/zh-cn/blog/new-support-for-dutch-and-persian-released-by-nemo-asr/ Tue, 16 Jan 2024 06:28:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=8754 Continued]]> 為了打破語音識別的障礙，NVIDIA NeMo自豪地推出了專為 AI 領域中常被忽視的荷蘭語和波斯語設計的預訓練模型。這些模型采用了最新推出的 FastConformer 技術，并結合 CTC 和傳感器目標進行同步訓練，以最大程度提升每個模型的準確性。自動語音識別（ASR）是對話式 AI 應用的基礎技術，因為它使用戶能夠使用語音與 AI 系統和其他設備進行通信。它還廣泛用于對話式分析和音頻字幕，從而實現更廣泛的內容訪問。 Persian 模型基于 Mozilla 的 Common Voice (MCV) 15.0 波斯數據構建。值得注意的是，兩種技術對于提高模型性能至關重要：一是從預訓練的英語檢查點初始化，二是自定義訓練測試分割，這允許額外使用 300 小時的 MCV 驗證記錄。此模型在評估中實現了 13.16%的詞錯誤率 (WER) 和 3.85%

]]>

8754

使用 ASR 自定義增強電話客戶服務 http://www.open-lab.net/zh-cn/blog/enhancing-phone-customer-service-with-asr-customization/ Tue, 09 Jan 2024 05:30:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=8647 Continued]]> 自動語音識別 (ASR) 是正確理解他人和進行自然對話的核心。為了打造客戶主導的語音助手并通過電話實現客戶服務交互自動化，公司必須通過理解、同理心和清晰度等品質來解決贏得呼叫者信任的獨特挑戰。從語音識別的角度來看，受電話限制的語音本質上具有挑戰性。背景噪聲、糟糕的通話質量以及各種方言和口音使得理解調用者的詞語變得困難。傳統語言理解系統通常對語音的支持有限，人們的說話方式與他們的輸入或文本方式存在本質區別。在本文中，我們將討論 PolyAI 與第三方、開箱即用和內部定制的探索之旅 NVIDIA Riva ASR 解決方案。我們的目標是提供語音體驗，讓呼叫者可以以自己喜歡的方式說話，并在對話的每個回合中提供有用的自然響應。內部微調的 Riva ASR 模型顯著提高了各種不同驗證真實客戶呼叫數據集的準確性。

]]>

8647

在 NVIDIA ACE 中使用 AI 動畫和語音功能打造逼真的虛擬形象 http://www.open-lab.net/zh-cn/blog/create-lifelike-avatars-with-ai-animation-and-speech-features-in-nvidia-ace/ Mon, 04 Dec 2023 05:32:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=8416 Continued]]> NVIDIA 今日公布了 NVIDIA Avatar Cloud Engine (ACE) 一系列技術，增強了 AI 虛擬形象和數字人的真實感和可訪問性。這些新的動畫和語音功能實現了更自然的對話和情感表達。開發者現在可以使用新的云 API 在應用中輕松實現和擴展智能虛擬形象，包括自動語音識別 (ASR)、文本轉語音 (TTS)、神經機器翻譯 (NMT) 和 Audio2Face (A2F)。借助這些高級功能，搶先體驗計劃的創作者可以利用 NVIDIA 技術快速構建新一代虛擬形象體驗。現在，使用 Unreal Engine 5 等一些熱門渲染工具，可以更輕松地在任何地方大規模構建和部署數字人。使用最新的 ACE AI 動畫功能和微服務(包括新添加的 A2F 情感支持)構建更具表現力的數字人。現在還提供用于身體、

]]>

8416

借助 AI 驅動的記錄和總結功能提高會議工作效率 http://www.open-lab.net/zh-cn/blog/boost-meeting-productivity-with-ai-powered-note-taking-and-summarization/ Wed, 29 Nov 2023 06:04:50 +0000 http://www.open-lab.net/zh-cn/blog/?p=8343 Continued]]> 會議是組織的生命線。它們促進協作和明智的決策。它們通過頭腦風暴和解決問題來消除孤島。它們還可以推進戰略目標和規劃。然而，實現這些目標的主要會議(尤其是涉及跨職能團隊和外部參與者的會議)可能具有挑戰性。需要將人員管理技能和熟練的文檔策略獨特地結合起來，以無縫促進決策制定并確保有效的會后任務執行。本文介紹了基于云原生微服務的架構，adam.ai。通過 NVIDIA 初創加速計劃，adam.ai 成為了一個全面的會議管理平臺，旨在為組織、團隊和專業人士的整個會議生命周期提供支持。該架構提供高可擴展性、低延遲和經濟高效的在線會議自動記錄服務。具體而言，adam.ai 利用了 NVIDIA 的技術。人工做筆記需要實時決定要記錄的信息和省略的信息。此外，即使對最熟練的人來說，在積極參與和細致的筆記之間取得平衡也會帶來挑戰。專注所需的耐久性，尤其是在漫長或復雜的討論期間，

]]>

8343

視頻：從研究到實際生產應用，探索語音 AI http://www.open-lab.net/zh-cn/blog/video-exploring-speech-ai-from-research-to-practical-production-applications/ Tue, 07 Nov 2023 04:24:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=8160 Continued]]> 將語音和翻譯 AI 集成到我們的日常生活中，正在迅速重塑我們的互動方式（從虛擬助理到呼叫中心和增強現實體驗）。語音 AI 日為語音 AI 的新進展提供了寶貴見解，展示了這項技術如何應對現實世界中的挑戰。在前三次語音 AI 日會議中，卡內基梅隆大學，Hippocratic AI，Suno 以及 Wipro 討論了如何部署語音 AI 以更大限度地提高業務投資。在 Omniverse 中，語音 AI 的研究正在革新多語言應用程序的開發，使其能夠同時理解不同的語言。先進的多語言語音技術使您能夠創建應用程序，并提供超越文化和國家邊界的卓越用戶體驗。如需深入了解語音和翻譯 AI (包括自動語音識別 (ASR)、文本轉語音 (TTS) 和神經網絡機器翻譯 (NMT))的最新趨勢和技術，請參閱以下資源： …

]]>

8160

如何在公有云中部署 NVIDIA Riva 語音和翻譯 AI http://www.open-lab.net/zh-cn/blog/how-to-deploy-riva-speech-and-translation-ai-in-the-public-cloud/ Tue, 29 Aug 2023 05:09:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=7711 Continued]]> 從初創企業到大型企業，企業都使用云市場來尋找快速轉型所需的新解決方案。云市場是在線店面，客戶可以在這里購買具有靈活計費模式的軟件和服務，包括現收現付、訂閱和私人協商優惠。企業進一步受益于以折扣價承諾的支出，以及節省時間和資源的單一賬單和發票來源。 NVIDIA Riva 是最先進的語音和翻譯人工智能服務，在最大的云服務提供商（CSP）市場上：公司可以快速找到高性能的語音和翻譯人工智能，這些人工智能可以完全定制，以最適合對話管道，如問答服務、智能虛擬助理、數字化身和不同語言的聯絡中心代理助理。組織可以在公共云上快速運行 Riva ，或將其與云提供商服務集成，從而獲得更大的信心和更好的投資回報。有了云計算中的 NVIDIA Riva ，您現在可以通過瀏覽器即時訪問 Riva 語音和翻譯 AI——即使您目前沒有自己的內部部署 GPU ——加速的基礎設施。

]]>

7711

人人超碰97caoporen国产