Speech & Audio Processing

2024年 8月 5日
使用 FastConformer 混合傳感器 CTC BPE 實現強大喬治亞語自動語音識別系統
由于數據資源有限,為代表性不足的語言構建有效的自動語音識別(automatic speech recognition,
3 MIN READ

2024年 4月 18日
借助 NVIDIA NeMo Parakeet ASR 模型突破語音識別的界限
NVIDIA NeMo Parakeet 是一個端到端平臺,用于在任何地方(任何云端和本地)大規模開發多模態生成式 AI 模型,
2 MIN READ

2024年 4月 18日
借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度
NVIDIA NeMo 是一個端到端平臺,用于在任何云和本地的任何地方大規模開發多模式生成 AI 模型,最近發布了 Parakeet-TDT。
2 MIN READ

2024年 4月 18日
NVIDIA NeMo Canary 模型的語音識別和翻譯新標準
NVIDIA NeMo 是一種端到端平臺,用于開發和部署多模態 生成式 AI 模型。它可以隨時隨地進行大規模模型部署。
2 MIN READ

2024年 3月 19日
NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄
NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及…
2 MIN READ

2024年 1月 16日
NVIDIA NeMo ASR 發布了對荷蘭語和波斯語的新支持
為了打破語音識別的障礙,NVIDIA NeMo自豪地推出了專為 AI 領域中常被忽視的荷蘭語和波斯語設計的預訓練模型。
1 MIN READ

2023年 11月 7日
視頻:從研究到實際生產應用,探索語音 AI
將語音和翻譯 AI 集成到我們的日常生活中,正在迅速重塑我們的互動方式(從虛擬助理到呼叫中心和增強現實體驗)。語音 AI 日為語音 AI…
1 MIN READ

2023年 2月 8日
演講 AI 聚光燈:Pendulum 如何在網上捕捉有害的敘述
超過 55% 的全球人口使用社交媒體,只需單擊一下即可輕松分享在線內容。在與他人聯系并消費娛樂內容的同時,
2 MIN READ

2023年 1月 31日
基于 NVIDIA NeMo 的多語言和代碼切換自動語音識別
多語言 自動語音識別 ( ASR )模型因其能夠以多種語言轉錄語音而獲得了極大的興趣。這是由不斷增長的多語言社區以及減少復雜性的需求所推動的。
2 MIN READ

2022年 10月 20日
構建基尼亞盧旺達語的自動語音識別模型
語音識別技術在語音助手和機器人、通過輔助醫療或教育解決現實世界問題等方面越來越受歡迎。這有助于實現全球 speech AI 接入的民主化。
2 MIN READ

2022年 9月 22日
語音 AI 機器人的低代碼構建塊
在研究復雜的語音人工智能機器人系統時,開發人員很容易被其復雜性嚇倒。亞瑟· C ·克拉克聲稱:“任何足夠先進的技術都無法與魔法區分開來。”…
2 MIN READ

2022年 9月 16日
通過多尺度說話人分解實現動態尺度加權
說話人日記化是按說話人標簽對錄音進行分段的過程,旨在回答“誰在何時發言?”。與語音識別相比,它有著明顯的區別。 在你執行說話人日記化之前,
2 MIN READ

2022年 9月 16日
使用 NVIDIA NeMo 進行文本規范化和反向文本規范化
文本規范化( TN )將文本從書面形式轉換為口頭形式,是文本到語音( TTS )之前的一個重要預處理步驟。
3 MIN READ

2022年 9月 14日
使用語音 AI 開發下一代擴展現實應用程序
由于身臨其境的體驗,虛擬現實( VR )、增強現實( AR )和混合現實( MR )環境可以感覺到難以置信的真實。在擴展現實( XR…
4 MIN READ

2022年 9月 12日
更改 CTC 規則以減少訓練和解碼中的內存消耗
訓練自動語音識別( ASR )模型的損失函數并不是一成不變的。舊的損失函數規則不一定是最優的。
3 MIN READ

2022年 6月 23日
語音 AI 簡介
人工智能( AI )已經將合成語音從單調的機器人呼叫和幾十年前的 GPS 導航系統轉變為智能手機和智能揚聲器中虛擬助理的優美音調。
2 MIN READ