Riva – NVIDIA 技術博客

Riva – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞和內容。 Fri, 21 Feb 2025 04:08:54 +0000 zh-CN hourly 1 196178272 使用 Whisper 和 Canary 架構部署 NVIDIA Riva 多語種 ASR，同時選擇性地停用 NMT http://www.open-lab.net/zh-cn/blog/deploying-nvidia-riva-multilingual-asr-with-whisper-and-canary-architectures-while-selectively-deactivating-nmt/ Thu, 20 Feb 2025 04:05:01 +0000 http://www.open-lab.net/zh-cn/blog/?p=12956 Continued]]> NVIDIA 持續開發自動語音識別 (ASR) 模型，這些模型在業內樹立了基準。早期版本的 NVIDIA Riva 是一種適用于 ASR 、 TTS 和 NMT 的 GPU 加速語音和翻譯 AI 微服務的集合，支持基于 Conformer 架構的英語-西班牙語和英語-日語代碼交換 ASR 模型，以及基于 Parakeet 架構的支持 EMEA 地區多種語言（即英國英語、歐洲西班牙語、法語、意大利語、標準德語和亞美尼亞語）的模型。最近，NVIDIA 發布了 Riva 2.18.0 容器和 SDK ，以不斷改進其語音 AI 模型。在此新版本中，我們現在提供以下服務：自動語音翻譯（AST）是將一種語言的語音翻譯為另一種語言的文本，而無需以第一種語言進行中間轉錄。

]]>

12956

視頻和音頻多模態檢索增強生成入門簡介 http://www.open-lab.net/zh-cn/blog/an-easy-introduction-to-multimodal-retrieval-augmented-generation-for-video-and-audio/ Mon, 16 Dec 2024 09:41:49 +0000 http://www.open-lab.net/zh-cn/blog/?p=12607 Continued]]> 構建多模態檢索增強生成 (RAG) 系統極具挑戰性。困難在于捕獲和索引來自多種模式的信息，包括文本、圖像、表格、音頻、視頻等。在上一篇博文《多模態檢索增強型生成的簡單介紹》中，我們討論了如何處理文本和圖像。本文將對話擴展到音頻和視頻。具體來說，我們將探討如何構建多模 odal RAG pipeline 來搜索視頻中的信息。基于第一條原則，我們可以說，構建跨多個模式的 RAG 工作流有三種方法，詳見下文和圖 1。構建跨多個模態的 RAG 工作流的第一種方法是使用通用嵌入空間。這種方法依賴于單個模型來投射存儲在同一嵌入空間中不同模式下的信息表示。使用具有圖像和文本編碼器的 CLIP 等模型屬于此類別。使用這種方法的好處是降低架構復雜性。根據用于訓練模型的數據的多樣性，還可以考慮適用用例的靈活性。這種方法的缺點是，如果模型能夠處理兩個以上的模態，

]]>

12607

借助 2D 和 3D 數字人虛擬形象擴展 AI 智能體界面選項 http://www.open-lab.net/zh-cn/blog/expanding-ai-agent-interface-options-with-2d-and-3d-digital-human-avatars/ Fri, 22 Nov 2024 07:29:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=12044 Continued]]> 在與生成式 AI 應用程序交互時，用戶有多種通信選項 – 文本、語音或通過數字化的虛擬形象。傳統聊天機器人或 Copilot 應用具有文本界面，用戶可在其中輸入查詢并接收基于文本的響應。對于免持通信，語音人工智能技術如自動語音識別 (ASR) 和文本轉語音 (TTS) 促進了口頭互動，非常適合電話客戶服務等場景。此外，將數字化虛擬形象與語音能力相結合，可為用戶提供更具動態性的界面，以便用戶以直觀方式與應用互動。根據 Gartner 的預測，到 2028 年，擁有 500 名以上員工的組織中，45% 的組織將利用員工人工智能虛擬形象來擴展人力資本能力。1 數字虛擬形象的風格差異很大，一些用例受益于逼真的 3D 或 2D 虛擬形象，而其他用例使用風格化或卡通化的虛擬形象時效果更好。要開始創建逼真的數字人，

]]>

12044

NVIDIA NIM 智能體藍圖助力 AI 應用打造數字人機交互界面 http://www.open-lab.net/zh-cn/blog/build-a-digital-human-interface-for-ai-apps-with-an-nvidia-nim-agent-blueprint/ Wed, 25 Sep 2024 09:58:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=11512 Continued]]> 為客戶提供高質量的服務仍然是各行各業企業的首要任務，從回答問題和解決問題到促進在線訂單。隨著企業在全球范圍內擴展運營并擴展產品以競爭，對無縫客戶服務的需求呈指數級增長搜索知識庫文章或瀏覽復雜的電話樹可能是一種有用資源，但客戶通常必須解析的信息密度會導致保留率不佳。隨著生成式 AI 、對話式 AI 和視覺 AI 等技術的融合，應用開發團隊正在尋找方法來提高與自助客戶應用的互動，從而提高整體滿意度和保留率。現在，您可以添加數字人界面來個性化聊天機器人應用，而不是基于文本的聊天機器人。此外，您還可以使用檢索增強生成技術 (RAG) 實現流暢的人機交互。本文將介紹如何使用 NVIDIA NIM Agent 藍圖實現這一目標，該藍圖將 NVIDIA NIM 微服務與參考代碼和文檔相結合。

]]>

11512

使用 NVIDIA NIM 微服務實現語音和翻譯功能，快速賦予應用語音能力 http://www.open-lab.net/zh-cn/blog/quickly-voice-your-apps-with-nvidia-nim-microservices-for-speech-and-translation/ Wed, 18 Sep 2024 07:42:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=11374 Continued]]> NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分，為自行托管的 GPU 加速推理微服務提供容器，用于跨云、數據中心和工作站的預訓練和自定義 AI 模型。NIM 微服務現已支持語音和翻譯。新的語音和翻譯微服務利用 NVIDIA Riva ，提供自動語音識別（ASR）、神經網絡機器翻譯（NMT）和文本轉語音（TTS）服務。通過 NVIDIA 語音和翻譯 NIM 微服務，將多語種語音功能集成到您的應用中，不僅能提供先進的自動語音識別（ASR）、神經機器翻譯（NMT）和文本轉語音（TTS），還可增強全球用戶體驗和可訪問性。無論您是構建客戶服務機器人、交互式語音助手，還是構建多語種內容平臺，這些 NIM 微服務都針對大規模高性能 AI 推理進行了優化，并提供準確性和靈活性，以盡可能減少開發工作量為您的應用提供語音支持。

]]>

11374

NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄 http://www.open-lab.net/zh-cn/blog/nvidia-speech-and-translation-ai-models-set-records-for-speed-and-accuracy/ Tue, 19 Mar 2024 06:06:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=9349 Continued]]> NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及 NVIDIA Canary 多語種、多任務 ASR 和翻譯模型在 Hugging Face 開放 ASR 排行榜上表現出色。此外，多語種 P-Flow 基于文本轉語音 (TTS) 的模型在 LIMMITS 的 24 項挑戰中取得了優異成績，使用簡短的音頻片段將說話者的聲音合成為 7 種語言。本文詳細介紹了其中一些出色的模型如何在語音和翻譯 AI (從語音識別到自定義語音創建) 領域開辟新天地。 NVIDIA Parakeet 模型系列包括 Parakeet CTC 1.1 B, Parakeet CTC 0.6 B, Parakeet RNNT 1.1 B, Parakeet RNNT 0.6 B 以及 Parakeet-TDT…

]]>

9349

如何通過四個步驟將 RAG 應用程序從試點階段轉變為生產階段 http://www.open-lab.net/zh-cn/blog/how-to-take-a-rag-application-from-pilot-to-production-in-four-steps/ Mon, 18 Mar 2024 07:06:29 +0000 http://www.open-lab.net/zh-cn/blog/?p=9399 Continued]]> 生成式 AI 具有改變各個行業的巨大潛力。人類工作者已經開始使用大型語言模型(LLM) 來解釋、推理和解決復雜的認知任務。檢索增強生成(RAG) 將 LLM 與數據連接起來，通過允許 LLM 訪問準確和最新的信息，擴展了 LLM 的功能。許多企業已經開始探索 RAG 如何幫助他們實現業務流程自動化和挖掘數據以獲取見解。盡管大多數企業已經啟動了多個與生成式 AI 用例一致的試點，據估計，其中 90%的模型在不久的將來不會超出評估階段。將引人入勝的 RAG 演示轉化為可提供真正商業價值的生產服務仍然具有挑戰性。在這篇博客中，我們將介紹 NVIDIA AI 如何通過四個步驟幫助您將 RAG 應用從試點階段遷移到生產階段。開發和部署生產就緒型企業 RAG 工作流會遇到許多障礙。 IT 管理員面臨著與 LLM 安全性、可用性、可移植性和數據治理相關的挑戰。

]]>

9399

使用 ASR 自定義增強電話客戶服務 http://www.open-lab.net/zh-cn/blog/enhancing-phone-customer-service-with-asr-customization/ Tue, 09 Jan 2024 05:30:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=8647 Continued]]> 自動語音識別 (ASR) 是正確理解他人和進行自然對話的核心。為了打造客戶主導的語音助手并通過電話實現客戶服務交互自動化，公司必須通過理解、同理心和清晰度等品質來解決贏得呼叫者信任的獨特挑戰。從語音識別的角度來看，受電話限制的語音本質上具有挑戰性。背景噪聲、糟糕的通話質量以及各種方言和口音使得理解調用者的詞語變得困難。傳統語言理解系統通常對語音的支持有限，人們的說話方式與他們的輸入或文本方式存在本質區別。在本文中，我們將討論 PolyAI 與第三方、開箱即用和內部定制的探索之旅 NVIDIA Riva ASR 解決方案。我們的目標是提供語音體驗，讓呼叫者可以以自己喜歡的方式說話，并在對話的每個回合中提供有用的自然響應。內部微調的 Riva ASR 模型顯著提高了各種不同驗證真實客戶呼叫數據集的準確性。

]]>

8647

在 NVIDIA ACE 中使用 AI 動畫和語音功能打造逼真的虛擬形象 http://www.open-lab.net/zh-cn/blog/create-lifelike-avatars-with-ai-animation-and-speech-features-in-nvidia-ace/ Mon, 04 Dec 2023 05:32:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=8416 Continued]]> NVIDIA 今日公布了 NVIDIA Avatar Cloud Engine (ACE) 一系列技術，增強了 AI 虛擬形象和數字人的真實感和可訪問性。這些新的動畫和語音功能實現了更自然的對話和情感表達。開發者現在可以使用新的云 API 在應用中輕松實現和擴展智能虛擬形象，包括自動語音識別 (ASR)、文本轉語音 (TTS)、神經機器翻譯 (NMT) 和 Audio2Face (A2F)。借助這些高級功能，搶先體驗計劃的創作者可以利用 NVIDIA 技術快速構建新一代虛擬形象體驗。現在，使用 Unreal Engine 5 等一些熱門渲染工具，可以更輕松地在任何地方大規模構建和部署數字人。使用最新的 ACE AI 動畫功能和微服務(包括新添加的 A2F 情感支持)構建更具表現力的數字人。現在還提供用于身體、

]]>

8416

借助 AI 驅動的記錄和總結功能提高會議工作效率 http://www.open-lab.net/zh-cn/blog/boost-meeting-productivity-with-ai-powered-note-taking-and-summarization/ Wed, 29 Nov 2023 06:04:50 +0000 http://www.open-lab.net/zh-cn/blog/?p=8343 Continued]]> 會議是組織的生命線。它們促進協作和明智的決策。它們通過頭腦風暴和解決問題來消除孤島。它們還可以推進戰略目標和規劃。然而，實現這些目標的主要會議(尤其是涉及跨職能團隊和外部參與者的會議)可能具有挑戰性。需要將人員管理技能和熟練的文檔策略獨特地結合起來，以無縫促進決策制定并確保有效的會后任務執行。本文介紹了基于云原生微服務的架構，adam.ai。通過 NVIDIA 初創加速計劃，adam.ai 成為了一個全面的會議管理平臺，旨在為組織、團隊和專業人士的整個會議生命周期提供支持。該架構提供高可擴展性、低延遲和經濟高效的在線會議自動記錄服務。具體而言，adam.ai 利用了 NVIDIA 的技術。人工做筆記需要實時決定要記錄的信息和省略的信息。此外，即使對最熟練的人來說，在積極參與和細致的筆記之間取得平衡也會帶來挑戰。專注所需的耐久性，尤其是在漫長或復雜的討論期間，

]]>

8343

視頻：從研究到實際生產應用，探索語音 AI http://www.open-lab.net/zh-cn/blog/video-exploring-speech-ai-from-research-to-practical-production-applications/ Tue, 07 Nov 2023 04:24:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=8160 Continued]]> 將語音和翻譯 AI 集成到我們的日常生活中，正在迅速重塑我們的互動方式（從虛擬助理到呼叫中心和增強現實體驗）。語音 AI 日為語音 AI 的新進展提供了寶貴見解，展示了這項技術如何應對現實世界中的挑戰。在前三次語音 AI 日會議中，卡內基梅隆大學，Hippocratic AI，Suno 以及 Wipro 討論了如何部署語音 AI 以更大限度地提高業務投資。在 Omniverse 中，語音 AI 的研究正在革新多語言應用程序的開發，使其能夠同時理解不同的語言。先進的多語言語音技術使您能夠創建應用程序，并提供超越文化和國家邊界的卓越用戶體驗。如需深入了解語音和翻譯 AI (包括自動語音識別 (ASR)、文本轉語音 (TTS) 和神經網絡機器翻譯 (NMT))的最新趨勢和技術，請參閱以下資源： …

]]>

8160

如何在公有云中部署 NVIDIA Riva 語音和翻譯 AI http://www.open-lab.net/zh-cn/blog/how-to-deploy-riva-speech-and-translation-ai-in-the-public-cloud/ Tue, 29 Aug 2023 05:09:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=7711 Continued]]> 從初創企業到大型企業，企業都使用云市場來尋找快速轉型所需的新解決方案。云市場是在線店面，客戶可以在這里購買具有靈活計費模式的軟件和服務，包括現收現付、訂閱和私人協商優惠。企業進一步受益于以折扣價承諾的支出，以及節省時間和資源的單一賬單和發票來源。 NVIDIA Riva 是最先進的語音和翻譯人工智能服務，在最大的云服務提供商（CSP）市場上：公司可以快速找到高性能的語音和翻譯人工智能，這些人工智能可以完全定制，以最適合對話管道，如問答服務、智能虛擬助理、數字化身和不同語言的聯絡中心代理助理。組織可以在公共云上快速運行 Riva ，或將其與云提供商服務集成，從而獲得更大的信心和更好的投資回報。有了云計算中的 NVIDIA Riva ，您現在可以通過瀏覽器即時訪問 Riva 語音和翻譯 AI——即使您目前沒有自己的內部部署 GPU ——加速的基礎設施。

]]>

7711

語音 AI 聚焦：在 AR 眼鏡上可視化口語和聲音 http://www.open-lab.net/zh-cn/blog/speech-ai-spotlight-visualizing-spoken-language-and-sounds-on-ar-glasses/ Fri, 23 Jun 2023 06:28:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=7276 Continued]]> 音頻可以包括各種各樣的聲音，從人類的語音到狗叫聲和警笛聲等非語音。當為聽力困難的人設計可訪問的應用程序時，該應用程序應該能夠識別聲音和理解語音。這項技術將幫助聾人或重聽人可視化語音，如人類對話和非語音。將語音和聲音 AI 結合在一起，你可以將可視化效果疊加到 AR 眼鏡上，讓用戶可以看到和解釋他們在其他情況下聽不到的聲音。根據世界衛生組織估計，全球約有 15 億人（占全球人口的近 20%）患有聽力損失。到 2050 年，這一數字可能會上升至 25 億。 Cochl，一家總部位于圣何塞的 NVIDIA 合作伙伴，是一家深度科技初創公司，使用聲音 AI 技術來理解任何類型的音頻。他們也是 NVIDIA 的Inception Program的成員，通過提供尖端技術和 NVIDIA 專家，幫助初創公司更快地構建解決方案。該平臺可以識別 37 種環境聲音，該公司更進一步，

]]>

7276

為全球語言用戶解鎖語音 AI 技術：熱門問答 http://www.open-lab.net/zh-cn/blog/unlocking-speech-ai-technology-for-global-language-users-top-qas/ Tue, 06 Jun 2023 06:50:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=7157 Continued]]> 語音技術正在無處不在地發展。但許多人正被一個以英語為中心、存在人口統計學偏見的算法世界拋在后面。Mozilla Common Voice（MCV）和NVIDIA正在合作，通過開發一個公共眾包多語言語音語料庫和開源預訓練模型來改變這一現狀，該語料庫目前是世界上同類語料庫中最大的。現在比以往任何時候都更容易開發自動語音識別（ASR）技術，以滿足多種語言的使用者。這篇文章總結了來自于2022年由EM Lewis Jong主演的 Speech AI Summit 和 Mozilla Common Voice 以及NVIDIA 的 Caroline de Brito Gottlieb 在 Unlocking Speech AI Technology for Global Language Users 中提出的錄音講話。 Caroline de Brito Gottlieb：

]]>

7157

使用 NVIDIA 定制語音 AI 增強電信客戶體驗 http://www.open-lab.net/zh-cn/blog/enhancing-customer-experience-in-telecom-with-nvidia-customized-speech-ai/ Tue, 30 May 2023 05:28:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=7096 Continued]]> 電信行業正在改變通信方式。為了提供可靠、不間斷的服務，企業正在應對提供最佳客戶體驗的挑戰。這種最佳的客戶體驗是大型電信服務提供商的許多長期客戶所沒有的。以杰克為例。他的電話被掛了 10 分鐘，這使他上班遲到了。與他交談過的第三位代理人吉爾閱讀了前一位代理人提供的簡短說明，但很難理解。因此，她問了杰克幾個問題來澄清。由于沒有同事， Jill 查閱了多份政策文件來解決 Jack 的擔憂。幾個資源之后，吉爾找到了必要的信息，但遺憾的是，杰克已經結束了通話。漫長的等待時間、復雜的服務請求和缺乏個性化是客戶面臨的一些常見問題，導致了不滿和流失。為了克服這些挑戰，電信行業正在轉向人工智能對話式 AI，一種利用語音、翻譯和自然語言處理（ NLP ）來促進類人交互的技術。這篇文章探討了為什么對話式人工智能系統是必不可少的，

]]>

7096

人人超碰97caoporen国产