Speech Recognition / Diarization – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 18 Jan 2024 06:41:27 +0000
zh-CN
hourly
1
196178272 -
NVIDIA NeMo ASR 發布了對荷蘭語和波斯語的新支持
http://www.open-lab.net/zh-cn/blog/new-support-for-dutch-and-persian-released-by-nemo-asr/
Tue, 16 Jan 2024 06:28:44 +0000
http://www.open-lab.net/zh-cn/blog/?p=8754
Continued]]>
為了打破語音識別的障礙,NVIDIA NeMo自豪地推出了專為 AI 領域中常被忽視的荷蘭語和波斯語設計的預訓練模型。 這些模型采用了最新推出的 FastConformer 技術,并結合 CTC 和傳感器目標進行同步訓練,以最大程度提升每個模型的準確性。 自動語音識別(ASR)是對話式 AI 應用的基礎技術,因為它使用戶能夠使用語音與 AI 系統和其他設備進行通信。它還廣泛用于對話式分析和音頻字幕,從而實現更廣泛的內容訪問。 Persian 模型基于 Mozilla 的 Common Voice (MCV) 15.0 波斯數據構建。值得注意的是,兩種技術對于提高模型性能至關重要:一是從預訓練的英語檢查點初始化,二是自定義訓練測試分割,這允許額外使用 300 小時的 MCV 驗證記錄。 此模型在評估中實現了 13.16%的詞錯誤率 (WER) 和 3.85%
Source
]]>
8754
-
使用 ASR 自定義增強電話客戶服務
http://www.open-lab.net/zh-cn/blog/enhancing-phone-customer-service-with-asr-customization/
Tue, 09 Jan 2024 05:30:36 +0000
http://www.open-lab.net/zh-cn/blog/?p=8647
Continued]]>
自動語音識別 (ASR) 是正確理解他人和進行自然對話的核心。為了打造客戶主導的語音助手并通過電話實現客戶服務交互自動化,公司必須通過理解、同理心和清晰度等品質來解決贏得呼叫者信任的獨特挑戰。 從語音識別的角度來看,受電話限制的語音本質上具有挑戰性。背景噪聲、糟糕的通話質量以及各種方言和口音使得理解調用者的詞語變得困難。傳統語言理解系統通常對語音的支持有限,人們的說話方式與他們的輸入或文本方式存在本質區別。 在本文中,我們將討論 PolyAI 與第三方、開箱即用和內部定制的探索之旅 NVIDIA Riva ASR 解決方案。我們的目標是提供語音體驗,讓呼叫者可以以自己喜歡的方式說話,并在對話的每個回合中提供有用的自然響應。內部微調的 Riva ASR 模型顯著提高了各種不同驗證真實客戶呼叫數據集的準確性。
Source
]]>
8647
-
借助 AI 驅動的記錄和總結功能提高會議工作效率
http://www.open-lab.net/zh-cn/blog/boost-meeting-productivity-with-ai-powered-note-taking-and-summarization/
Wed, 29 Nov 2023 06:04:50 +0000
http://www.open-lab.net/zh-cn/blog/?p=8343
Continued]]>
會議是組織的生命線。它們促進協作和明智的決策。它們通過頭腦風暴和解決問題來消除孤島。它們還可以推進戰略目標和規劃。 然而,實現這些目標的主要會議(尤其是涉及跨職能團隊和外部參與者的會議)可能具有挑戰性。需要將人員管理技能和熟練的文檔策略獨特地結合起來,以無縫促進決策制定并確保有效的會后任務執行。 本文介紹了基于云原生微服務的架構,adam.ai。通過 NVIDIA 初創加速計劃,adam.ai 成為了一個全面的會議管理平臺,旨在為組織、團隊和專業人士的整個會議生命周期提供支持。該架構提供高可擴展性、低延遲和經濟高效的在線會議自動記錄服務。具體而言,adam.ai 利用了 NVIDIA 的技術。 人工做筆記需要實時決定要記錄的信息和省略的信息。此外,即使對最熟練的人來說,在積極參與和細致的筆記之間取得平衡也會帶來挑戰。專注所需的耐久性,尤其是在漫長或復雜的討論期間,
Source
]]>
8343
-
視頻:從研究到實際生產應用,探索語音 AI
http://www.open-lab.net/zh-cn/blog/video-exploring-speech-ai-from-research-to-practical-production-applications/
Tue, 07 Nov 2023 04:24:26 +0000
http://www.open-lab.net/zh-cn/blog/?p=8160
Continued]]>
將語音和翻譯 AI 集成到我們的日常生活中,正在迅速重塑我們的互動方式(從虛擬助理到呼叫中心和增強現實體驗)。語音 AI 日為語音 AI 的新進展提供了寶貴見解,展示了這項技術如何應對現實世界中的挑戰。 在前三次語音 AI 日會議中,卡內基梅隆大學,Hippocratic AI,Suno 以及 Wipro 討論了如何部署語音 AI 以更大限度地提高業務投資。 在 Omniverse 中,語音 AI 的研究正在革新多語言應用程序的開發,使其能夠同時理解不同的語言。先進的多語言語音技術使您能夠創建應用程序,并提供超越文化和國家邊界的卓越用戶體驗。 如需深入了解語音和翻譯 AI (包括自動語音識別 (ASR)、文本轉語音 (TTS) 和神經網絡機器翻譯 (NMT))的最新趨勢和技術,請參閱以下資源: …
Source
]]>
8160
-
如何在公有云中部署 NVIDIA Riva 語音和翻譯 AI
http://www.open-lab.net/zh-cn/blog/how-to-deploy-riva-speech-and-translation-ai-in-the-public-cloud/
Tue, 29 Aug 2023 05:09:02 +0000
http://www.open-lab.net/zh-cn/blog/?p=7711
Continued]]>
從初創企業到大型企業,企業都使用云市場來尋找快速轉型所需的新解決方案。云市場是在線店面,客戶可以在這里購買具有靈活計費模式的軟件和服務,包括現收現付、訂閱和私人協商優惠。企業進一步受益于以折扣價承諾的支出,以及節省時間和資源的單一賬單和發票來源。 NVIDIA Riva 是最先進的語音和翻譯人工智能服務,在最大的云服務提供商(CSP)市場上: 公司可以快速找到高性能的語音和翻譯人工智能,這些人工智能可以完全定制,以最適合對話管道,如問答服務、智能虛擬助理、數字化身和不同語言的聯絡中心代理助理。 組織可以在公共云上快速運行 Riva ,或將其與云提供商服務集成,從而獲得更大的信心和更好的投資回報。有了云計算中的 NVIDIA Riva ,您現在可以通過瀏覽器即時訪問 Riva 語音和翻譯 AI——即使您目前沒有自己的內部部署 GPU ——加速的基礎設施。
Source
]]>
7711
人人超碰97caoporen国产