語音 AI

2025年 2月 26日
在 NVIDIA GPU 上訓練的 Microsoft Phi SLM 的多模態最新進展
大語言模型(LLMs)已滲透到各行各業,并改變了技術潛力。但是,由于規模龐大,它們對于許多公司目前面臨的資源限制來說并不切實際。
1 MIN READ

2025年 2月 20日
使用 Whisper 和 Canary 架構部署 NVIDIA Riva 多語種 ASR,同時選擇性地停用 NMT
NVIDIA 持續開發自動語音識別 (ASR) 模型,這些模型在業內樹立了基準。 早期版本的 NVIDIA Riva 是一種適用于 ASR 、
4 MIN READ

2024年 9月 18日
使用 NVIDIA NIM 微服務實現語音和翻譯功能,快速賦予應用語音能力
NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分,為自行托管的 GPU 加速推理微服務提供容器,用于跨云、
3 MIN READ

2024年 9月 5日
跨音頻類型實現先進的零樣本波形音頻生成
令人驚嘆的音頻內容是虛擬世界的重要組成部分。音頻生成式 AI 在創建此類內容方面發揮著關鍵作用,NVIDIA 正在不斷突破這一研究領域的極限。
2 MIN READ

2024年 7月 2日
NVIDIA NeMo T5-TTS 模型助力解決語音合成語言模型中的幻覺問題
NVIDIA NeMo 發布了 T5-TTS 模型,這是文本轉語音 (TTS) 技術的一項重大進步。基于 大型語言模型 (LLM),
1 MIN READ

2024年 4月 18日
借助 NVIDIA NeMo Parakeet ASR 模型突破語音識別的界限
NVIDIA NeMo Parakeet 是一個端到端平臺,用于在任何地方(任何云端和本地)大規模開發多模態生成式 AI 模型,
2 MIN READ

2024年 4月 18日
借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度
NVIDIA NeMo 是一個端到端平臺,用于在任何云和本地的任何地方大規模開發多模式生成 AI 模型,最近發布了 Parakeet-TDT。
2 MIN READ

2024年 4月 18日
NVIDIA NeMo Canary 模型的語音識別和翻譯新標準
NVIDIA NeMo 是一種端到端平臺,用于開發和部署多模態 生成式 AI 模型。它可以隨時隨地進行大規模模型部署。
2 MIN READ

2024年 3月 19日
NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄
NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及…
2 MIN READ

2024年 1月 16日
NVIDIA NeMo ASR 發布了對荷蘭語和波斯語的新支持
為了打破語音識別的障礙,NVIDIA NeMo自豪地推出了專為 AI 領域中常被忽視的荷蘭語和波斯語設計的預訓練模型。
1 MIN READ

2024年 1月 9日
使用 ASR 自定義增強電話客戶服務
自動語音識別 (ASR) 是正確理解他人和進行自然對話的核心。為了打造客戶主導的語音助手并通過電話實現客戶服務交互自動化,公司必須通過理解、
2 MIN READ

2023年 12月 4日
在 NVIDIA ACE 中使用 AI 動畫和語音功能打造逼真的虛擬形象
NVIDIA 今日公布了 NVIDIA Avatar Cloud Engine (ACE) 一系列技術,
1 MIN READ

2023年 11月 29日
借助 AI 驅動的記錄和總結功能提高會議工作效率
會議是組織的生命線。它們促進協作和明智的決策。它們通過頭腦風暴和解決問題來消除孤島。它們還可以推進戰略目標和規劃。 然而,
1 MIN READ

2023年 11月 7日
視頻:從研究到實際生產應用,探索語音 AI
將語音和翻譯 AI 集成到我們的日常生活中,正在迅速重塑我們的互動方式(從虛擬助理到呼叫中心和增強現實體驗)。語音 AI 日為語音 AI…
1 MIN READ

2023年 8月 29日
如何在公有云中部署 NVIDIA Riva 語音和翻譯 AI
從初創企業到大型企業,企業都使用云市場來尋找快速轉型所需的新解決方案。云市場是在線店面,客戶可以在這里購買具有靈活計費模式的軟件和服務,
5 MIN READ

2023年 6月 22日
零樣本多揚聲器 TTS 系統概述:熱門問答
Speech AI Summit 是一個年度會議,匯集了人工智能和語音技術領域的專家,討論最新的行業趨勢和進步。這個會議的錄音講話,
1 MIN READ