Speech & Audio Processing – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 12 Dec 2024 04:08:26 +0000 zh-CN hourly 1 196178272 使用 FastConformer 混合傳感器 CTC BPE 實現強大喬治亞語自動語音識別系統 http://www.open-lab.net/zh-cn/blog/developing-robust-georgian-automatic-speech-recognition-with-fastconformer-hybrid-transducer-ctc-bpe/ Mon, 05 Aug 2024 05:22:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=10930 Continued]]> 由于數據資源有限,為代表性不足的語言構建有效的自動語音識別(automatic speech recognition,ASR)模型面臨獨特的挑戰。 在本文中,我將討論準備數據集、配置模型和有效訓練模型的最佳實踐。我還將討論評估指標和遇到的挑戰。通過遵循這些實踐,您可以在數據資源有限的情況下,以機密方式為 Georgian 語或任何其他語言開發自己的高質量 ASR 模型。 Mozilla Common Voice (MCV) 是一項旨在實現更具包容性語音技術的開源計劃,可提供各種 Georgian 語音數據。 喬治亞語的 MCV 數據集大約包括: 這些經過驗證的數據總計約為 116.6 小時,對于訓練穩健的自動語音識別(ASR)模型而言,這些數據仍然很小。適合此類模型的數據集從 250 小時開始算起。有關更多信息,請參閱示例:

Source

]]>
10930
借助 NVIDIA NeMo Parakeet ASR 模型突破語音識別的界限 http://www.open-lab.net/zh-cn/blog/pushing-the-boundaries-of-speech-recognition-with-nemo-parakeet-asr-models/ Thu, 18 Apr 2024 05:58:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=9689 Continued]]> NVIDIA NeMo Parakeet 是一個端到端平臺,用于在任何地方(任何云端和本地)大規模開發多模態生成式 AI 模型,包括自動語音識別 (ASR) 模型。這些最先進的 ASR 模型是與 Suno.ai 合作開發的,能夠極其準確地轉錄英語口語。 本文詳細介紹了 Parakeet ASR 模型在語音識別領域的新突破。 四個已發布的 Parakeet 模型基于遞歸神經網絡傳感器 (RNNT) 或 connectionist Temporal Classification (CTC) 解碼器。它們擁有 0.6 B 和 11 B 參數,可處理各種音頻環境,表現出對音樂和靜音等非語音片段的彈性。 這些模型基于廣泛的 64000 小時公有和專有數據集進行訓練,在各種口音和方言、人聲范圍以及不同的域和噪音條件下表現出出色的準確性。

Source

]]>
9689
借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度 http://www.open-lab.net/zh-cn/blog/turbocharge-asr-accuracy-and-speed-with-nvidia-nemo-parakeet-tdt/ Thu, 18 Apr 2024 05:52:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=9683 Continued]]> NVIDIA NeMo 是一個端到端平臺,用于在任何云和本地的任何地方大規模開發多模式生成 AI 模型,最近發布了 Parakeet-TDT。Parakeet-TDT 是這個新成員的其中一個,它與之前的最佳模型相比,具有更高的準確度和 64%的速度。NeMo ASR Parakeet 模型系列包括 Parakeet-TDT 和 NeMo ASR Parakeet 模型系列。 本文介紹了 Parakeet-TDT,以及如何使用它生成具有高實時系數的高精度轉錄,在一秒內處理 10 分鐘的音頻。 Parakeet-TDT (令牌和持續時間傳感器) 是 NVIDIA 開發的一種新型序列建模架構。最新研究表明,與傳統傳感器相比較,TDT 模型在速度和識別精度的方面有顯著提高。有關更多詳細信息,請參閱 此論文。 從正確性角度來看,具有 11 億個參數的 Parakeet-TDT…

Source

]]>
9683
NVIDIA NeMo Canary 模型的語音識別和翻譯新標準 http://www.open-lab.net/zh-cn/blog/new-standard-for-speech-recognition-and-translation-from-the-nvidia-nemo-canary-model/ Thu, 18 Apr 2024 05:46:47 +0000 http://www.open-lab.net/zh-cn/blog/?p=9677 Continued]]> NVIDIA NeMo 是一種端到端平臺,用于開發和部署多模態 生成式 AI 模型。它可以隨時隨地進行大規模模型部署。 NeMo 團隊最近發布了 Canary,這是一款多語言模型,可轉錄英語、西班牙語、德語和法語的語音,并添加標點符號和大寫。Canary 還提供英語和其他三種受支持語言之間的雙向翻譯。 本文詳細介紹了 Canary 模型及其使用方法。 Canary 模型在 HuggingFace 開放 ASR 排行榜 中平均詞錯誤率 (WER) 為 6.67%,其性能遠遠優于所有其他開源模型。 Canary 結合使用公共和內部數據進行訓練。它使用 85000 小時的轉錄語音來學習語音識別。為了教授 Canary 翻譯,我們使用 NVIDIA NeMo 文本翻譯模型生成所有支持語言的原始轉錄的翻譯。 盡管數據量比類似規模的模型少一個數量級,

Source

]]>
9677
NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄 http://www.open-lab.net/zh-cn/blog/nvidia-speech-and-translation-ai-models-set-records-for-speed-and-accuracy/ Tue, 19 Mar 2024 06:06:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=9349 Continued]]> NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及 NVIDIA Canary 多語種、多任務 ASR 和翻譯模型在 Hugging Face 開放 ASR 排行榜 上表現出色。此外,多語種 P-Flow 基于文本轉語音 (TTS) 的模型在 LIMMITS 的 24 項挑戰 中取得了優異成績,使用簡短的音頻片段將說話者的聲音合成為 7 種語言。 本文詳細介紹了其中一些出色的模型如何在語音和翻譯 AI (從語音識別到自定義語音創建) 領域開辟新天地。 NVIDIA Parakeet 模型系列包括 Parakeet CTC 1.1 B, Parakeet CTC 0.6 B, Parakeet RNNT 1.1 B, Parakeet RNNT 0.6 B 以及 Parakeet-TDT…

Source

]]>
9349
NVIDIA NeMo ASR 發布了對荷蘭語和波斯語的新支持 http://www.open-lab.net/zh-cn/blog/new-support-for-dutch-and-persian-released-by-nemo-asr/ Tue, 16 Jan 2024 06:28:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=8754 Continued]]> 為了打破語音識別的障礙,NVIDIA NeMo自豪地推出了專為 AI 領域中常被忽視的荷蘭語和波斯語設計的預訓練模型。 這些模型采用了最新推出的 FastConformer 技術,并結合 CTC 和傳感器目標進行同步訓練,以最大程度提升每個模型的準確性。 自動語音識別(ASR)是對話式 AI 應用的基礎技術,因為它使用戶能夠使用語音與 AI 系統和其他設備進行通信。它還廣泛用于對話式分析和音頻字幕,從而實現更廣泛的內容訪問。 Persian 模型基于 Mozilla 的 Common Voice (MCV) 15.0 波斯數據構建。值得注意的是,兩種技術對于提高模型性能至關重要:一是從預訓練的英語檢查點初始化,二是自定義訓練測試分割,這允許額外使用 300 小時的 MCV 驗證記錄。 此模型在評估中實現了 13.16%的詞錯誤率 (WER) 和 3.85%

Source

]]>
8754
視頻:從研究到實際生產應用,探索語音 AI http://www.open-lab.net/zh-cn/blog/video-exploring-speech-ai-from-research-to-practical-production-applications/ Tue, 07 Nov 2023 04:24:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=8160 Continued]]> 將語音和翻譯 AI 集成到我們的日常生活中,正在迅速重塑我們的互動方式(從虛擬助理到呼叫中心和增強現實體驗)。語音 AI 日為語音 AI 的新進展提供了寶貴見解,展示了這項技術如何應對現實世界中的挑戰。 在前三次語音 AI 日會議中,卡內基梅隆大學,Hippocratic AI,Suno 以及 Wipro 討論了如何部署語音 AI 以更大限度地提高業務投資。 在 Omniverse 中,語音 AI 的研究正在革新多語言應用程序的開發,使其能夠同時理解不同的語言。先進的多語言語音技術使您能夠創建應用程序,并提供超越文化和國家邊界的卓越用戶體驗。 如需深入了解語音和翻譯 AI (包括自動語音識別 (ASR)、文本轉語音 (TTS) 和神經網絡機器翻譯 (NMT))的最新趨勢和技術,請參閱以下資源: …

Source

]]>
8160
演講 AI 聚光燈:Pendulum 如何在網上捕捉有害的敘述 http://www.open-lab.net/zh-cn/blog/speech-ai-spotlight-how-pendulum-nabs-harmful-narratives-online/ Wed, 08 Feb 2023 05:30:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=6235 Continued]]> 超過 55% 的全球人口使用社交媒體,只需單擊一下即可輕松分享在線內容。在與他人聯系并消費娛樂內容的同時,你也可以發現構成現實生活威脅的有害敘事。 這就是為什么 Pendulum 的工程副總裁 Ammar Haris 希望他的公司的人工智能能夠幫助客戶更深入地了解在線生成的關于他們的有害內容。這些謊言經常像一場快速蔓延的野火一樣在社交媒體平臺上的視頻、音頻和文本中傳播。 就像野火一樣,及早發現有害的網絡敘事可能是撲滅任何破壞性影響的關鍵。 鐘擺是 NVIDIA Inception program ,通過提供接觸尖端技術和 NVIDIA 專家的機會,幫助創業公司發展。 早在 2021 , Sam Clark 和 Mark Listes 創建了 Pendulum ,目的是幫助客戶識別有害內容。業務合作伙伴知道,他們的平臺可以應用 speech AI 和自然語言處理( NLP…

Source

]]>
6235
基于 NVIDIA NeMo 的多語言和代碼切換自動語音識別 http://www.open-lab.net/zh-cn/blog/multilingual-and-code-switched-automatic-speech-recognition-with-nvidia-nemo/ Tue, 31 Jan 2023 07:11:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=6119 Continued]]> 多語言 自動語音識別 ( ASR )模型因其能夠以多種語言轉錄語音而獲得了極大的興趣。這是由不斷增長的多語言社區以及減少復雜性的需求所推動的。您只需要一個模型來處理多種語言。 這篇文章解釋了如何使用 NGC 目錄中的 預訓練多語言 NeMo ASR 模型 。我們還分享了創建自己的多語言數據集和訓練自己的模型的最佳實踐。 ASR 模型在高級別上將語音轉換為文本。在推斷時,它們使用音頻文件作為輸入,并生成文本標記或字符作為輸出(圖 1 )。更準確地說,在每個音頻采樣時間步,該模型輸出總共 標記中每一個的對數概率。 在培訓時,您提供文本記錄以及音頻文件作為輸入。當模型訓練時,它使用成績單來計算訓練損失。它逐漸減少了這種損失,并提高了其權重,使其輸出成績單盡可能接近原始。 多語言環境為這幅圖增添了幾個方面。在推斷過程中,您通常不知道音頻中包含的語言。但是,

Source

]]>
6119
構建基尼亞盧旺達語的自動語音識別模型 http://www.open-lab.net/zh-cn/blog/building-an-automatic-speech-recognition-model-for-the-kinyarwanda-language/ Thu, 20 Oct 2022 04:11:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5502 Continued]]> 語音識別技術在語音助手和機器人、通過輔助醫療或教育解決現實世界問題等方面越來越受歡迎。這有助于實現全球 speech AI 接入的民主化。隨著為獨特的新興語言標記的數據集變得越來越廣泛,開發人員可以輕松、準確、經濟地構建 AI 應用程序,以增強本地區的技術開發和體驗。 Kinyarwanda 是盧旺達、烏干達、剛果民主共和國和坦桑尼亞 980 萬人的母語,全球共有 2000 多萬人使用。 2022 年 4 月, Mozilla Common Voice (MCV) ,一個眾包項目,旨在使語音識別向所有人開放和可訪問,對構建基尼亞盧旺達數據集做出了重大貢獻,詳見文章 Lessons from Building for Kinyarwanda on Common Voice 。這是一個 57 GB 的數據集,有 2000 多小時的音頻,是 MCV 平臺上最大的數據集。

Source

]]>
5502
語音 AI 機器人的低代碼構建塊 http://www.open-lab.net/zh-cn/blog/low-code-building-blocks-for-speech-ai-robotics/ Thu, 22 Sep 2022 08:00:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5181 Continued]]> 在研究復雜的語音人工智能機器人系統時,開發人員很容易被其復雜性嚇倒。亞瑟· C ·克拉克聲稱:“任何足夠先進的技術都無法與魔法區分開來。” 從接受自然語言命令到安全地與環境和周圍的人實時交互,當今的語音人工智能機器人系統可以執行以前機器無法完成的任務。加入谷歌、 Meta 、 NVIDIA 等公司的專家,參加第一屆年度 NVIDIA -Speech AI 峰會。 立即注冊 以 Spot 為例,它是一個支持語音 AI 的機器人,可以自己取飲料。為了方便地添加語音 AI 技能,例如 自動語音識別 ( ASR )或文本到語音( TTS ),許多開發人員在構建復雜的機器人系統時使用更簡單的低代碼構建塊。 對于開發具有語音 AI 技能的機器人應用程序的開發人員,本文將分解 NVIDIA Riva SDK 提供的低代碼構建塊。 通過跟隨所提供的代碼示例,

Source

]]>
5181
通過多尺度說話人分解實現動態尺度加權 http://www.open-lab.net/zh-cn/blog/dynamic-scale-weighting-through-multiscale-speaker-diarization/ Fri, 16 Sep 2022 03:49:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5257 Continued]]> 說話人日記化是按說話人標簽對錄音進行分段的過程,旨在回答“誰在何時發言?”。與語音識別相比,它有著明顯的區別。 在你執行說話人日記化之前,你知道“說的是什么”,但你不知道“誰說的”。因此,說話人日記化是語音識別系統的一個基本特征,它可以用說話人標簽豐富轉錄內容。也就是說,如果沒有說話人日記化過程,會話錄音永遠不能被視為完全轉錄,因為沒有說話者標簽的轉錄無法通知您是誰在和誰說話。 說話人日記必須產生準確的時間戳,因為在會話設置中,說話人的話輪數可能非常短。我們經常使用短的反向通道詞,如“ yes ”、“ uh huh ”或“ oh ”。這些詞對機器轉錄和識別說話人來說很有挑戰性。 雖然根據說話人身份對音頻記錄進行分段,但說話人日記化需要對相對較短的分段進行細粒度決策,從十分之幾秒到幾秒不等。對如此短的音頻片段做出準確、細粒度的決策是一項挑戰,

Source

]]>
5257
使用 NVIDIA NeMo 進行文本規范化和反向文本規范化 http://www.open-lab.net/zh-cn/blog/text-normalization-and-inverse-text-normalization-with-nvidia-nemo/ Fri, 16 Sep 2022 03:32:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5254 Continued]]> 文本規范化( TN )將文本從書面形式轉換為口頭形式,是文本到語音( TTS )之前的一個重要預處理步驟。 TN 確保 TTS 可以處理所有輸入文本,而不會跳過未知符號。例如,“ 123 美元”轉換為“一百二十三美元” 反向文本規范化( ITN )是自動語音識別( ASR )后處理管道的一部分。 ITN 將 ASR 模型輸出轉換為書面形式,以提高文本可讀性。例如, ITN 模塊將 ASR 模型轉錄的“ 123 美元”替換為“ 123 美元。” ITN 不僅提高了可讀性,還提高了下游任務(如神經機器翻譯或命名實體識別)的性能,因為這些任務在訓練期間使用書面文本。 TN 和 ITN 任務面臨幾個挑戰: TN 和 ITN 系統支持多種 semiotic classes ,即口語形式不同于書面形式的單詞或標記,需要規范化。例如日期、小數、基數、度量等。

Source

]]>
5254
使用語音 AI 開發下一代擴展現實應用程序 http://www.open-lab.net/zh-cn/blog/developing-the-next-generation-of-extended-reality-applications-with-speech-ai/ Wed, 14 Sep 2022 04:03:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5263 Continued]]> 由于身臨其境的體驗,虛擬現實( VR )、增強現實( AR )和混合現實( MR )環境可以感覺到難以置信的真實。在擴展現實( XR )應用程序中添加基于語音的界面可以使其看起來更真實。 想象一下,用你的聲音在一個環境中導航,或者發出口頭命令,然后聽到虛擬實體的回應。 在 XR 環境中利用 speech AI 的可能性非常誘人。語音人工智能技能,如自動語音識別( ASR )和文本到語音轉換( TTS ),使 XR 應用程序變得有趣、易于使用,并使有語音障礙的用戶更容易使用。 本文介紹了如何在 XR 應用程序中使用語音識別,也稱為語音到文本( STT ),有哪些 ASR 自定義,以及如何開始在 Windows 應用程序中運行 ASR 服務。 在當今大多數 XR 體驗中,用戶無法使用鍵盤或鼠標。 VR 游戲控制器通常與虛擬體驗交互的方式既笨拙又不直觀,當您沉浸在環境中時,

Source

]]>
5263
更改 CTC 規則以減少訓練和解碼中的內存消耗 http://www.open-lab.net/zh-cn/blog/changing-ctc-rules-to-reduce-memory-consumption-in-training-and-decoding/ Mon, 12 Sep 2022 05:36:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5281 Continued]]> 訓練自動語音識別( ASR )模型的損失函數并不是一成不變的。舊的損失函數規則不一定是最優的。考慮一下 connectionist temporal classification ( CTC ),看看改變它的一些規則如何能夠減少 GPU 內存,這是訓練和推斷基于 CTC 的模型所需的內存,等等。 若你們要訓練一個 ASR 模型,無論是卷積神經網絡還是遞歸神經網絡、transformer 還是組合,你們很可能是用 CTC 損失訓練它。 CTC 簡單方便,因為它不需要每幀關于“什么聲音何時發音”(所謂的音頻文本時間對齊)的信息。在大多數情況下,這種知識是不可用的,就像在一個典型的 ASR 音頻數據集中,關聯文本沒有時間標記。 真正的時間校準并不總是微不足道的。假設大部分錄音沒有講話,結尾只有一個簡短短語。 CTC 損失并不能告訴模型何時準確地發出預測。相反,

Source

]]>
5281
人人超碰97caoporen国产