Audio / Speech Synthesis – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 25 Jan 2024 09:03:32 +0000
zh-CN
hourly
1
196178272 -
模型星期一:使用優化的 DePlot 模型查詢圖形
http://www.open-lab.net/zh-cn/blog/model-monday-query-graphs-with-optimized-deplot-model/
Mon, 22 Jan 2024 08:55:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=8830
Continued]]>
我們將在全年的每個星期一發布新模型。本周,我們發布了NVIDIA 優化的 DePlot 模型,您可以直接在瀏覽器中體驗。 NVIDIA 基礎模型和端點提供對社區和 NVIDIA 構建的一系列精心策劃的生成式 AI 模型的訪問權限,以便在企業應用程序中體驗、自定義和部署。 如果您還沒有嘗試過領先的模型,如 NeMo-8B-QA, Mixtral 8X7B, Llama 2 (Jaguar 2), 和 Stable Diffusion, 現在可以在 NVIDIA AI Playground 中體驗。 視覺語言推理的一次飛躍:通過與大型語言模型 (LLM) 的結合,DePlot 能夠理解和解釋圖表與圖形。這種方法與之前經過端到端訓練的多模態 LLM 不同,它將問題分解為以下步驟: 具體來說,在第一步中,DePlot 是指圖像到文本的 Transformer 模型,
Source
]]>
8830
-
使用 ASR 自定義增強電話客戶服務
http://www.open-lab.net/zh-cn/blog/enhancing-phone-customer-service-with-asr-customization/
Tue, 09 Jan 2024 05:30:36 +0000
http://www.open-lab.net/zh-cn/blog/?p=8647
Continued]]>
自動語音識別 (ASR) 是正確理解他人和進行自然對話的核心。為了打造客戶主導的語音助手并通過電話實現客戶服務交互自動化,公司必須通過理解、同理心和清晰度等品質來解決贏得呼叫者信任的獨特挑戰。 從語音識別的角度來看,受電話限制的語音本質上具有挑戰性。背景噪聲、糟糕的通話質量以及各種方言和口音使得理解調用者的詞語變得困難。傳統語言理解系統通常對語音的支持有限,人們的說話方式與他們的輸入或文本方式存在本質區別。 在本文中,我們將討論 PolyAI 與第三方、開箱即用和內部定制的探索之旅 NVIDIA Riva ASR 解決方案。我們的目標是提供語音體驗,讓呼叫者可以以自己喜歡的方式說話,并在對話的每個回合中提供有用的自然響應。內部微調的 Riva ASR 模型顯著提高了各種不同驗證真實客戶呼叫數據集的準確性。
Source
]]>
8647
人人超碰97caoporen国产