Automatic Speech Recognition (ASR) – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Tue, 09 Jan 2024 02:37:26 +0000 zh-CN hourly 1 196178272 在 GPU 上高效部署語音 AI 模型 http://www.open-lab.net/zh-cn/blog/deploy-speech-ai-model-on-gpu/ Tue, 09 Jan 2024 02:37:24 +0000 http://www.open-lab.net/zh-cn/blog/?p=8605 Continued]]> 導讀:本文將介紹如何在GPU上高效地部署語音AI模型,主要內容如下: ▌語音AI部署背景介紹 首先介紹下搭建語音識別和語音生成類工作管線的痛點與挑戰。 首先,AI模型的部署,有端上和云上兩種不同的方式。在云上部署時,常常面對服務延時高、并發路數低、部署成本高等問題。我們希望通過更有效地利用 GPU 資源,服務更多的用戶,同時降低部署成本。 第二,語音 AI 與傳統的 CV 算法不同,其工作管線更為復雜,通常包含多個模塊,并且需要處理流之間的狀態維護、管理以及狀態切換。這使得開發難度大,有時簡單的 Python 腳本調度并不高效。 第三,當前許多從事語音 AI 服務的實踐者開始探索使用大型模型,如Whisper,來完成語音識別和語音模型的任務。然而,使用大型模型帶來了更大的計算需求,因此迫切需要提升大語言模型在 ASR、

Source

]]>
8605
演講 AI 聚光燈:Pendulum 如何在網上捕捉有害的敘述 http://www.open-lab.net/zh-cn/blog/speech-ai-spotlight-how-pendulum-nabs-harmful-narratives-online/ Wed, 08 Feb 2023 05:30:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=6235 Continued]]> 超過 55% 的全球人口使用社交媒體,只需單擊一下即可輕松分享在線內容。在與他人聯系并消費娛樂內容的同時,你也可以發現構成現實生活威脅的有害敘事。 這就是為什么 Pendulum 的工程副總裁 Ammar Haris 希望他的公司的人工智能能夠幫助客戶更深入地了解在線生成的關于他們的有害內容。這些謊言經常像一場快速蔓延的野火一樣在社交媒體平臺上的視頻、音頻和文本中傳播。 就像野火一樣,及早發現有害的網絡敘事可能是撲滅任何破壞性影響的關鍵。 鐘擺是 NVIDIA Inception program ,通過提供接觸尖端技術和 NVIDIA 專家的機會,幫助創業公司發展。 早在 2021 , Sam Clark 和 Mark Listes 創建了 Pendulum ,目的是幫助客戶識別有害內容。業務合作伙伴知道,他們的平臺可以應用 speech AI 和自然語言處理( NLP…

Source

]]>
6235
語音識別模型對新領域的受控適應 http://www.open-lab.net/zh-cn/blog/controlled-adaptation-of-speech-recognition-models-to-new-domains/ Fri, 03 Feb 2023 03:13:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=6221 Continued]]> 你有沒有試過在你的口音上微調語音識別系統,結果發現,雖然它能很好地識別你的聲音,但卻無法檢測到別人說的話?這在經過數十萬小時語音訓練的語音識別系統中很常見。 在大規模 自動語音識別 ( ASR )中,系統可能在許多但不是所有場景中都表現良好。例如,在嘈雜的環境中,它可能需要更高的精度。或者,它可能需要為具有濃重口音或獨特方言的用戶進行調整。 在這種情況下,一種簡單的方法是根據特定領域的樣本對模型進行微調。盡管如此,這個過程可能會嚴重損害模型在一般語音上的準確性,因為它會過度填充新的域。 本文提出了一種選擇模型的簡單方法,該模型可以在 adapter modules 和 基于傳感器的語音識別系統 的幫助下平衡普通語音的識別精度,并改進自適應域上的識別。 神經網絡通常由多個模塊組成;例如在語音識別或自然語言處理( NLP )中通常使用的編碼器和解碼器模塊。

Source

]]>
6221
基于 NVIDIA NeMo 的多語言和代碼切換自動語音識別 http://www.open-lab.net/zh-cn/blog/multilingual-and-code-switched-automatic-speech-recognition-with-nvidia-nemo/ Tue, 31 Jan 2023 07:11:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=6119 Continued]]> 多語言 自動語音識別 ( ASR )模型因其能夠以多種語言轉錄語音而獲得了極大的興趣。這是由不斷增長的多語言社區以及減少復雜性的需求所推動的。您只需要一個模型來處理多種語言。 這篇文章解釋了如何使用 NGC 目錄中的 預訓練多語言 NeMo ASR 模型 。我們還分享了創建自己的多語言數據集和訓練自己的模型的最佳實踐。 ASR 模型在高級別上將語音轉換為文本。在推斷時,它們使用音頻文件作為輸入,并生成文本標記或字符作為輸出(圖 1 )。更準確地說,在每個音頻采樣時間步,該模型輸出總共 標記中每一個的對數概率。 在培訓時,您提供文本記錄以及音頻文件作為輸入。當模型訓練時,它使用成績單來計算訓練損失。它逐漸減少了這種損失,并提高了其權重,使其輸出成績單盡可能接近原始。 多語言環境為這幅圖增添了幾個方面。在推斷過程中,您通常不知道音頻中包含的語言。但是,

Source

]]>
6119
基于熵的字級 ASR 置信度估計方法 http://www.open-lab.net/zh-cn/blog/entropy-based-methods-for-word-level-asr-confidence-estimation/ Fri, 13 Jan 2023 09:16:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=6160 Continued]]> 一旦您有了自動語音識別( ASR )模型預測,您可能還想知道這些預測正確的可能性。這種正確率或置信度通常作為原始預測概率(快速、簡單且可能無用)來衡量。您還可以訓練單獨的模型來估計預測置信度(準確,但復雜且緩慢)。這篇文章解釋了如何使用基于熵的方法實現快速、簡單的單詞級 ASR 置信度估計。 你有沒有見過機器學習模型預測,并想知道這種預測有多準確?您可以根據在類似測試用例中測量的準確度進行猜測。例如,假設您知道 ASR 模型以 10% 的單詞錯誤率( WER )預測錄制語音中的單詞。在這種情況下,您可以預期該模型識別的每個單詞都有 90% 的準確率。 對于某些應用程序來說,這樣的粗略估計可能就足夠了,但如果您想確切地知道哪個單詞更可能正確,哪個單詞不正確呢?這將需要使用超出實際單詞的預測信息,例如從模型接收的準確預測概率。

Source

]]>
6160
使用 Kubernetes 自動縮放 NVIDIA Riva 部署,用于生產中的語音 AI http://www.open-lab.net/zh-cn/blog/autoscaling-nvidia-riva-deployment-with-kubernetes-for-speech-ai-in-production/ Thu, 12 Jan 2023 09:23:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=6167 Continued]]> 語音 AI 應用,從呼叫中心到虛擬助理,嚴重依賴 自動語音識別 ( ASR )和文本轉語音( TTS )。 ASR 可以處理音頻信號并將音頻轉錄為文本。語音合成或 TTS 可以實時從文本中生成高質量、自然的聲音。語音 AI 的挑戰是實現高精度并滿足實時交互的延遲要求。 NVIDIA Riva 是一個 GPU 加速 SDK ,用于構建語音 AI 應用程序,使用最先進的模型實現高精度,同時提供高吞吐量。 Riva 提供世界級的語音識別和文本到語音技能,以與人類進行多種語言的交互。 Riva 可以部署在內部 、云中、邊緣或嵌入式平臺上,您可以擴展 Riva 服務器,以低延遲處理數百或數千個實時流。這篇文章一步一步地指導您如何使用 Kubernetes 進行自動縮放和 Traefik 進行負載平衡來大規模部署 Riva 服務器。 Riva 可以針對不同應用程序(如聊天機器人、

Source

]]>
6167
深度學習正在改變 ASR 和 TTS 算法 http://www.open-lab.net/zh-cn/blog/deep-learning-is-transforming-asr-and-tts-algorithms/ Fri, 16 Dec 2022 06:25:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5881 Continued]]> 語音是與 AI 驅動的應用程序通信的主要手段之一。從虛擬助理到數字化身,基于語音的界面正在改變我們通常與智能設備的交互方式。 深度學習 用于語音識別和語音合成的技術有助于改善用戶體驗,如人類般的響應和自然的音調。 如果您計劃構建和部署支持語音 AI 的應用程序,本文將概述 自動語音識別 ( ASR )和文本到語音( TTS )技術如何因深度學習而發展。我還提到了當今現代應用中使用的一些流行的、最先進的 ASR 和 TTS 架構。 無論你是在元宇宙中與數字人交談,還是在聯絡中心與真人交談,每天都會產生數千億分鐘的音頻。語音 AI 可以幫助自動化所有這些音頻分鐘。 Speech AI 包括 ASR 、 TTS 和相關任務等技術。有趣的是,這些技術并不新鮮,而且已經存在了 50 年。 今天,使用深度學習技術開發的 ASR 算法可以針對特定領域的行話、語言、

Source

]]>
5881
語音 AI 技術實現與服務機器人的自然交互 http://www.open-lab.net/zh-cn/blog/speech-ai-technology-enables-natural-interactions-with-service-robots/ Fri, 16 Dec 2022 06:19:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5878 Continued]]> 從在餐廳點菜、為您提供食物,到與您一起玩撲克,服務機器人正變得越來越普遍。在全球范圍內,您可以在醫院、機場和零售店找到這些服務機器人。 根據 Gartner 的數據,到 2030 年, 80% 的人每天都會與智能機器人打交道 ,由于智能機器人在智能、社交互動和人類增強能力方面的進步,比現在的不足 10% 有所提高。 準確的 語音人工智能 或語音 AI 接口能夠快速理解人類并模仿人類的語音,這對于服務機器人的易用性至關重要。開發人員正在將 自動語音識別 (ASR) 和文本轉語音( TTS )與服務機器人集成,以實現基本技能,例如理解和用自然語言回答人類問題。這些基于語音的技術構成了語音 AI 。 這篇文章解釋了 ASR 和 TTS 如何在服務機器人應用中使用。我提供了一個演練,說明如何根據機器人的部署位置,使用針對行業特定術語、語言和方言的語音 AI 軟件工具定制它們。

Source

]]>
5878
縮短聯絡中心智能虛擬助理的開發時間 http://www.open-lab.net/zh-cn/blog/reducing-development-time-for-intelligent-virtual-assistants-in-contact-centers/ Thu, 15 Dec 2022 07:12:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5901 Continued]]> 隨著全球服務經濟的發展,公司越來越依賴于聯系中心來改善客戶體驗,提高客戶滿意度,降低成本并提高效率。客戶需求的增長速度遠遠超過了聯絡中心的就業率。與高代理流失率相結合,客戶需求產生了對更自動化的實時客戶通信的需求,從而增強了代理的能力。 研究人員早在 20 世紀 70 年代就認識到了這些趨勢,并開始開發可通過觸音電話導航的原始語音菜單。雖然語音菜單可能會回答常見問題,并減輕聯絡中心代理的壓力,但客戶通常會發現與他們互動令人沮喪。 由于以下任何原因,您可能是想要直接與代理通話的來電者之一,而不是收聽多層預先錄制的語音提示: 為了有效解決這些問題,公司已開始將智能虛擬助理(也稱為 AI 虛擬助理)集成到其聯絡中心解決方案中。 在本篇文章中,我們概述了如何使用 NVIDIA 聯絡中心智能虛擬助理工作流和組件(如 NVIDIA Riva 語音技術和 speech AI…

Source

]]>
5901
語音 AI 聚焦:用虛擬代理重塑客戶服務 http://www.open-lab.net/zh-cn/blog/speech-ai-spotlight-reimagine-customer-service-with-virtual-agents/ Wed, 14 Dec 2022 06:10:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5929 Continued]]> 虛擬代理或語音助手已經存在了很長一段時間。但在過去的十年中,隨著 AI 的使用,它們的實用性和流行性急劇增長。 根據 Gartner 的數據,到 2025 年,虛擬助理將自動完成呼叫中心代理 75% 的任務,而 2021 這一比例為 30% 。這將為聯絡中心代理和客戶帶來更好的體驗。 從醫療保健到金融服務,人工智能改變了客戶服務,使其更加高效和個性化。今天的虛擬代理由 speech AI 技術提供支持,不僅可以在聯絡中心處理重復的客戶請求,還可以幫助人工代理比以往更快地解決復雜問題。 NVIDIA 合作伙伴 Gridspace 位于洛杉磯,是一家語音技術和人工智能軟件公司,創建了聽起來自然的虛擬代理和語音機器人,以增強客戶服務體驗。他們也是 NVIDIA Inception Program 的成員,

Source

]]>
5929
為新語言創建的 NVIDIA Riva ASR 服務 http://www.open-lab.net/zh-cn/blog/making-an-nvidia-riva-asr-service-for-a-new-language/ Fri, 28 Oct 2022 05:35:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5567 Continued]]> Speech AI 是智能系統使用語音接口與用戶進行通信的能力,語音接口在日常生活中已變得無處不在。人們經常通過語音與智能家居設備、車載助手和手機互動。近年來,語音界面質量得到了突飛猛進的改善,使其比十年前更加愉快、實用和自然。 具有語音 AI 接口的智能系統組件包括: ASR 是任何語音 AI 系統的第一個組件,起著至關重要的作用。 ASR 階段早期出現的任何錯誤都會在隨后的意圖分析和實現階段中出現問題。 目前有超過 6500 種口語在使用,其中大多數沒有商業 ASR 產品。 ASR 服務提供商最多覆蓋幾十家。 NVIDIA Riva 目前涵蓋五種語言(英語、西班牙語、德語、普通話和俄語),更多版本將在未來發布。 雖然這一套還很小,但 Riva 為您提供了現成的工作流、工具和指導,以快速、系統、輕松地為新語言提供 ASR 服務。在這篇文章中,

Source

]]>
5567
構建基尼亞盧旺達語的自動語音識別模型 http://www.open-lab.net/zh-cn/blog/building-an-automatic-speech-recognition-model-for-the-kinyarwanda-language/ Thu, 20 Oct 2022 04:11:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5502 Continued]]> 語音識別技術在語音助手和機器人、通過輔助醫療或教育解決現實世界問題等方面越來越受歡迎。這有助于實現全球 speech AI 接入的民主化。隨著為獨特的新興語言標記的數據集變得越來越廣泛,開發人員可以輕松、準確、經濟地構建 AI 應用程序,以增強本地區的技術開發和體驗。 Kinyarwanda 是盧旺達、烏干達、剛果民主共和國和坦桑尼亞 980 萬人的母語,全球共有 2000 多萬人使用。 2022 年 4 月, Mozilla Common Voice (MCV) ,一個眾包項目,旨在使語音識別向所有人開放和可訪問,對構建基尼亞盧旺達數據集做出了重大貢獻,詳見文章 Lessons from Building for Kinyarwanda on Common Voice 。這是一個 57 GB 的數據集,有 2000 多小時的音頻,是 MCV 平臺上最大的數據集。

Source

]]>
5502
語音 AI 機器人的低代碼構建塊 http://www.open-lab.net/zh-cn/blog/low-code-building-blocks-for-speech-ai-robotics/ Thu, 22 Sep 2022 08:00:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5181 Continued]]> 在研究復雜的語音人工智能機器人系統時,開發人員很容易被其復雜性嚇倒。亞瑟· C ·克拉克聲稱:“任何足夠先進的技術都無法與魔法區分開來。” 從接受自然語言命令到安全地與環境和周圍的人實時交互,當今的語音人工智能機器人系統可以執行以前機器無法完成的任務。加入谷歌、 Meta 、 NVIDIA 等公司的專家,參加第一屆年度 NVIDIA -Speech AI 峰會。 立即注冊 以 Spot 為例,它是一個支持語音 AI 的機器人,可以自己取飲料。為了方便地添加語音 AI 技能,例如 自動語音識別 ( ASR )或文本到語音( TTS ),許多開發人員在構建復雜的機器人系統時使用更簡單的低代碼構建塊。 對于開發具有語音 AI 技能的機器人應用程序的開發人員,本文將分解 NVIDIA Riva SDK 提供的低代碼構建塊。 通過跟隨所提供的代碼示例,

Source

]]>
5181
通過多尺度說話人分解實現動態尺度加權 http://www.open-lab.net/zh-cn/blog/dynamic-scale-weighting-through-multiscale-speaker-diarization/ Fri, 16 Sep 2022 03:49:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5257 Continued]]> 說話人日記化是按說話人標簽對錄音進行分段的過程,旨在回答“誰在何時發言?”。與語音識別相比,它有著明顯的區別。 在你執行說話人日記化之前,你知道“說的是什么”,但你不知道“誰說的”。因此,說話人日記化是語音識別系統的一個基本特征,它可以用說話人標簽豐富轉錄內容。也就是說,如果沒有說話人日記化過程,會話錄音永遠不能被視為完全轉錄,因為沒有說話者標簽的轉錄無法通知您是誰在和誰說話。 說話人日記必須產生準確的時間戳,因為在會話設置中,說話人的話輪數可能非常短。我們經常使用短的反向通道詞,如“ yes ”、“ uh huh ”或“ oh ”。這些詞對機器轉錄和識別說話人來說很有挑戰性。 雖然根據說話人身份對音頻記錄進行分段,但說話人日記化需要對相對較短的分段進行細粒度決策,從十分之幾秒到幾秒不等。對如此短的音頻片段做出準確、細粒度的決策是一項挑戰,

Source

]]>
5257
使用 NVIDIA NeMo 進行文本規范化和反向文本規范化 http://www.open-lab.net/zh-cn/blog/text-normalization-and-inverse-text-normalization-with-nvidia-nemo/ Fri, 16 Sep 2022 03:32:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5254 Continued]]> 文本規范化( TN )將文本從書面形式轉換為口頭形式,是文本到語音( TTS )之前的一個重要預處理步驟。 TN 確保 TTS 可以處理所有輸入文本,而不會跳過未知符號。例如,“ 123 美元”轉換為“一百二十三美元” 反向文本規范化( ITN )是自動語音識別( ASR )后處理管道的一部分。 ITN 將 ASR 模型輸出轉換為書面形式,以提高文本可讀性。例如, ITN 模塊將 ASR 模型轉錄的“ 123 美元”替換為“ 123 美元。” ITN 不僅提高了可讀性,還提高了下游任務(如神經機器翻譯或命名實體識別)的性能,因為這些任務在訓練期間使用書面文本。 TN 和 ITN 任務面臨幾個挑戰: TN 和 ITN 系統支持多種 semiotic classes ,即口語形式不同于書面形式的單詞或標記,需要規范化。例如日期、小數、基數、度量等。

Source

]]>
5254
人人超碰97caoporen国产