Text-to-Speech (TTS) / Speech Synthesis – NVIDIA 技術博客

演講 AI 聚光燈：Pendulum 如何在網上捕捉有害的敘述

Wed, 08 Feb 2023 05:30:43 +0000

超過 55% 的全球人口使用社交媒體，只需單擊一下即可輕松分享在線內容。在與他人聯系并消費娛樂內容的同時，你也可以發現構成現實生活威脅的有害敘事。這就是為什么 Pendulum 的工程副總裁 Ammar Haris 希望他的公司的人工智能能夠幫助客戶更深入地了解在線生成的關于他們的有害內容。這些謊言經常像一場快速蔓延的野火一樣在社交媒體平臺上的視頻、音頻和文本中傳播。就像野火一樣，及早發現有害的網絡敘事可能是撲滅任何破壞性影響的關鍵。鐘擺是 NVIDIA Inception program ，通過提供接觸尖端技術和 NVIDIA 專家的機會，幫助創業公司發展。早在 2021 ， Sam Clark 和 Mark Listes 創建了 Pendulum ，目的是幫助客戶識別有害內容。業務合作伙伴知道，他們的平臺可以應用 speech AI 和自然語言處理（ NLP…

Source

]]>

使用 Kubernetes 自動縮放 NVIDIA Riva 部署，用于生產中的語音 AI

Thu, 12 Jan 2023 09:23:46 +0000

語音 AI 應用，從呼叫中心到虛擬助理，嚴重依賴自動語音識別（ ASR ）和文本轉語音（ TTS ）。 ASR 可以處理音頻信號并將音頻轉錄為文本。語音合成或 TTS 可以實時從文本中生成高質量、自然的聲音。語音 AI 的挑戰是實現高精度并滿足實時交互的延遲要求。 NVIDIA Riva 是一個 GPU 加速 SDK ，用于構建語音 AI 應用程序，使用最先進的模型實現高精度，同時提供高吞吐量。 Riva 提供世界級的語音識別和文本到語音技能，以與人類進行多種語言的交互。 Riva 可以部署在內部、云中、邊緣或嵌入式平臺上，您可以擴展 Riva 服務器，以低延遲處理數百或數千個實時流。這篇文章一步一步地指導您如何使用 Kubernetes 進行自動縮放和 Traefik 進行負載平衡來大規模部署 Riva 服務器。 Riva 可以針對不同應用程序（如聊天機器人、

Source

]]>

深度學習正在改變 ASR 和 TTS 算法

Fri, 16 Dec 2022 06:25:00 +0000

語音是與 AI 驅動的應用程序通信的主要手段之一。從虛擬助理到數字化身，基于語音的界面正在改變我們通常與智能設備的交互方式。深度學習用于語音識別和語音合成的技術有助于改善用戶體驗，如人類般的響應和自然的音調。如果您計劃構建和部署支持語音 AI 的應用程序，本文將概述自動語音識別（ ASR ）和文本到語音（ TTS ）技術如何因深度學習而發展。我還提到了當今現代應用中使用的一些流行的、最先進的 ASR 和 TTS 架構。無論你是在元宇宙中與數字人交談，還是在聯絡中心與真人交談，每天都會產生數千億分鐘的音頻。語音 AI 可以幫助自動化所有這些音頻分鐘。 Speech AI 包括 ASR 、 TTS 和相關任務等技術。有趣的是，這些技術并不新鮮，而且已經存在了 50 年。今天，使用深度學習技術開發的 ASR 算法可以針對特定領域的行話、語言、

Source

]]>

語音 AI 技術實現與服務機器人的自然交互

Fri, 16 Dec 2022 06:19:00 +0000

從在餐廳點菜、為您提供食物，到與您一起玩撲克，服務機器人正變得越來越普遍。在全球范圍內，您可以在醫院、機場和零售店找到這些服務機器人。根據 Gartner 的數據，到 2030 年， 80% 的人每天都會與智能機器人打交道，由于智能機器人在智能、社交互動和人類增強能力方面的進步，比現在的不足 10% 有所提高。準確的語音人工智能或語音 AI 接口能夠快速理解人類并模仿人類的語音，這對于服務機器人的易用性至關重要。開發人員正在將自動語音識別 (ASR) 和文本轉語音（ TTS ）與服務機器人集成，以實現基本技能，例如理解和用自然語言回答人類問題。這些基于語音的技術構成了語音 AI 。這篇文章解釋了 ASR 和 TTS 如何在服務機器人應用中使用。我提供了一個演練，說明如何根據機器人的部署位置，使用針對行業特定術語、語言和方言的語音 AI 軟件工具定制它們。

Source

]]>

縮短聯絡中心智能虛擬助理的開發時間

Thu, 15 Dec 2022 07:12:00 +0000

隨著全球服務經濟的發展，公司越來越依賴于聯系中心來改善客戶體驗，提高客戶滿意度，降低成本并提高效率。客戶需求的增長速度遠遠超過了聯絡中心的就業率。與高代理流失率相結合，客戶需求產生了對更自動化的實時客戶通信的需求，從而增強了代理的能力。研究人員早在 20 世紀 70 年代就認識到了這些趨勢，并開始開發可通過觸音電話導航的原始語音菜單。雖然語音菜單可能會回答常見問題，并減輕聯絡中心代理的壓力，但客戶通常會發現與他們互動令人沮喪。由于以下任何原因，您可能是想要直接與代理通話的來電者之一，而不是收聽多層預先錄制的語音提示：為了有效解決這些問題，公司已開始將智能虛擬助理（也稱為 AI 虛擬助理）集成到其聯絡中心解決方案中。在本篇文章中，我們概述了如何使用 NVIDIA 聯絡中心智能虛擬助理工作流和組件（如 NVIDIA Riva 語音技術和 speech AI…

Source

]]>

語音 AI 聚焦：用虛擬代理重塑客戶服務

Wed, 14 Dec 2022 06:10:00 +0000

虛擬代理或語音助手已經存在了很長一段時間。但在過去的十年中，隨著 AI 的使用，它們的實用性和流行性急劇增長。根據 Gartner 的數據，到 2025 年，虛擬助理將自動完成呼叫中心代理 75% 的任務，而 2021 這一比例為 30% 。這將為聯絡中心代理和客戶帶來更好的體驗。從醫療保健到金融服務，人工智能改變了客戶服務，使其更加高效和個性化。今天的虛擬代理由 speech AI 技術提供支持，不僅可以在聯絡中心處理重復的客戶請求，還可以幫助人工代理比以往更快地解決復雜問題。 NVIDIA 合作伙伴 Gridspace 位于洛杉磯，是一家語音技術和人工智能軟件公司，創建了聽起來自然的虛擬代理和語音機器人，以增強客戶服務體驗。他們也是 NVIDIA Inception Program 的成員，

Source

]]>

語音 AI 機器人的低代碼構建塊

Thu, 22 Sep 2022 08:00:00 +0000

在研究復雜的語音人工智能機器人系統時，開發人員很容易被其復雜性嚇倒。亞瑟· C ·克拉克聲稱：“任何足夠先進的技術都無法與魔法區分開來。” 從接受自然語言命令到安全地與環境和周圍的人實時交互，當今的語音人工智能機器人系統可以執行以前機器無法完成的任務。加入谷歌、 Meta 、 NVIDIA 等公司的專家，參加第一屆年度 NVIDIA -Speech AI 峰會。立即注冊以 Spot 為例，它是一個支持語音 AI 的機器人，可以自己取飲料。為了方便地添加語音 AI 技能，例如自動語音識別（ ASR ）或文本到語音（ TTS ），許多開發人員在構建復雜的機器人系統時使用更簡單的低代碼構建塊。對于開發具有語音 AI 技能的機器人應用程序的開發人員，本文將分解 NVIDIA Riva SDK 提供的低代碼構建塊。通過跟隨所提供的代碼示例，

Source

]]>

使用 NVIDIA NeMo 進行文本規范化和反向文本規范化

Fri, 16 Sep 2022 03:32:00 +0000

文本規范化（ TN ）將文本從書面形式轉換為口頭形式，是文本到語音（ TTS ）之前的一個重要預處理步驟。 TN 確保 TTS 可以處理所有輸入文本，而不會跳過未知符號。例如，“ 123 美元”轉換為“一百二十三美元” 反向文本規范化（ ITN ）是自動語音識別（ ASR ）后處理管道的一部分。 ITN 將 ASR 模型輸出轉換為書面形式，以提高文本可讀性。例如， ITN 模塊將 ASR 模型轉錄的“ 123 美元”替換為“ 123 美元。” ITN 不僅提高了可讀性，還提高了下游任務（如神經機器翻譯或命名實體識別）的性能，因為這些任務在訓練期間使用書面文本。 TN 和 ITN 任務面臨幾個挑戰： TN 和 ITN 系統支持多種 semiotic classes ，即口語形式不同于書面形式的單詞或標記，需要規范化。例如日期、小數、基數、度量等。

Source

]]>

在 Amazon EC2 上使用 NVIDIA Riva 構建語音支持的人工智能虛擬助手

Thu, 28 Jul 2022 05:16:00 +0000

語音 AI 可以在聯絡中心協助人類代理，為虛擬助理和數字化身供電，在視頻會議中生成實時字幕，等等。在后臺，這些基于語音的技術協調了自動語音識別（ ASR ）和文本到語音（ TTS ）管道網絡，以提供智能、實時的響應。從頭開始構建這些實時語音人工智能應用程序并非易事。從建立 GPU 優化的開發環境到在 300 毫秒內使用定制的基于大型 transformer 的語言模型部署語音 AI 推理，語音 AI 管道需要專門的時間、專業知識和投資。在這篇文章中，我們將介紹如何通過使用 NVIDIA Riva 運行 GPU 優化的應用程序。在沒有先驗知識或經驗的情況下，您將學習如何快速配置 GPU 優化的開發環境，并使用 Jupyter 筆記本運行 NVIDIA Riva ASR 和 TTS 示例。跟隨之后虛擬助手演示可以在 Amazon EC2 上由 NVIDIA GPU…

Source

]]>

基本語音人工智能術語理解指南

Tue, 26 Jul 2022 05:56:00 +0000

對語音識別技術感興趣？注冊我們的語音 AI 新聞稿 . 語音人工智能是一種能夠使用語音與計算機系統進行通信的技術。指揮車內助手或操作智能家居設備？支持人工智能的語音界面可以幫助您與設備交互，而無需在屏幕上鍵入或點擊。人工智能的語音領域相對較新。但隨著語音交互的成熟并擴展到新的設備和平臺，開發人員必須跟上不斷發展的術語。在本文中，我介紹了語音人工智能領域的關鍵概念，描述了它在更大的人工智能領域中的位置，并討論了它與其他科學技術領域的關系。您可能聽說過，甚至熟悉這些技術，但為了完整起見，以下是一些基本知識：語音人工智能是將人工智能用于基于語音的技術。語音人工智能系統的核心組件包括：語音人工智能是對話人工智能，主要從 DL 和 ML 領域繪制其技術。 AI 、 ML 、 DL 和語音 AI 之間的關系可以用圖 1 中的維恩圖表示。

Source

]]>