3 月 19 日下午 2 點，鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看

Speech & Audio Processing

2024年 8月 5日

使用 FastConformer 混合傳感器 CTC BPE 實現強大喬治亞語自動語音識別系統

由于數據資源有限，為代表性不足的語言構建有效的自動語音識別（automatic speech recognition，

3 MIN READ

2024年 4月 18日

借助 NVIDIA NeMo Parakeet ASR 模型突破語音識別的界限

NVIDIA NeMo Parakeet 是一個端到端平臺，用于在任何地方（任何云端和本地）大規模開發多模態生成式 AI 模型，

2 MIN READ

2024年 4月 18日

借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的準確性和速度

NVIDIA NeMo 是一個端到端平臺，用于在任何云和本地的任何地方大規模開發多模式生成 AI 模型，最近發布了 Parakeet-TDT。

2 MIN READ

2024年 4月 18日

NVIDIA NeMo Canary 模型的語音識別和翻譯新標準

NVIDIA NeMo 是一種端到端平臺，用于開發和部署多模態生成式 AI 模型。它可以隨時隨地進行大規模模型部署。

2 MIN READ

2024年 3月 19日

NVIDIA 語音和翻譯 AI 模型在速度和準確性方面創下記錄

NVIDIA 開發的語音和翻譯 AI 模型正在推動性能和創新的發展。NVIDIA Parakeet 自動語音識別 (ASR) 模型系列以及…

2 MIN READ

2024年 1月 16日

NVIDIA NeMo ASR 發布了對荷蘭語和波斯語的新支持

為了打破語音識別的障礙，NVIDIA NeMo自豪地推出了專為 AI 領域中常被忽視的荷蘭語和波斯語設計的預訓練模型。

1 MIN READ

2023年 11月 7日

視頻：從研究到實際生產應用，探索語音 AI

將語音和翻譯 AI 集成到我們的日常生活中，正在迅速重塑我們的互動方式（從虛擬助理到呼叫中心和增強現實體驗）。語音 AI 日為語音 AI…

1 MIN READ

2023年 2月 8日

演講 AI 聚光燈：Pendulum 如何在網上捕捉有害的敘述

超過 55% 的全球人口使用社交媒體，只需單擊一下即可輕松分享在線內容。在與他人聯系并消費娛樂內容的同時，

2 MIN READ

2023年 1月 31日

基于 NVIDIA NeMo 的多語言和代碼切換自動語音識別

多語言自動語音識別（ ASR ）模型因其能夠以多種語言轉錄語音而獲得了極大的興趣。這是由不斷增長的多語言社區以及減少復雜性的需求所推動的。

2 MIN READ

2022年 10月 20日

構建基尼亞盧旺達語的自動語音識別模型

語音識別技術在語音助手和機器人、通過輔助醫療或教育解決現實世界問題等方面越來越受歡迎。這有助于實現全球 speech AI 接入的民主化。

2 MIN READ

2022年 9月 22日

語音 AI 機器人的低代碼構建塊

在研究復雜的語音人工智能機器人系統時，開發人員很容易被其復雜性嚇倒。亞瑟· C ·克拉克聲稱：“任何足夠先進的技術都無法與魔法區分開來。”…

2 MIN READ

2022年 9月 16日

通過多尺度說話人分解實現動態尺度加權

說話人日記化是按說話人標簽對錄音進行分段的過程，旨在回答“誰在何時發言？”。與語音識別相比，它有著明顯的區別。在你執行說話人日記化之前，

2 MIN READ

2022年 9月 16日

使用 NVIDIA NeMo 進行文本規范化和反向文本規范化

文本規范化（ TN ）將文本從書面形式轉換為口頭形式，是文本到語音（ TTS ）之前的一個重要預處理步驟。

3 MIN READ

2022年 9月 14日

使用語音 AI 開發下一代擴展現實應用程序

由于身臨其境的體驗，虛擬現實（ VR ）、增強現實（ AR ）和混合現實（ MR ）環境可以感覺到難以置信的真實。在擴展現實（ XR…

4 MIN READ

2022年 9月 12日

更改 CTC 規則以減少訓練和解碼中的內存消耗

訓練自動語音識別（ ASR ）模型的損失函數并不是一成不變的。舊的損失函數規則不一定是最優的。

3 MIN READ

2022年 6月 23日

語音 AI 簡介

人工智能（ AI ）已經將合成語音從單調的機器人呼叫和幾十年前的 GPS 導航系統轉變為智能手機和智能揚聲器中虛擬助理的優美音調。

2 MIN READ