語音 AI 技術實現與服務機器人的自然交互

從在餐廳點菜、為您提供食物，到與您一起玩撲克，服務機器人正變得越來越普遍。在全球范圍內，您可以在醫院、機場和零售店找到這些服務機器人。

根據 Gartner 的數據，到 2030 年， 80% 的人每天都會與智能機器人打交道?，由于智能機器人在智能、社交互動和人類增強能力方面的進步，比現在的不足 10% 有所提高。

準確的語音人工智能或語音 AI 接口能夠快速理解人類并模仿人類的語音，這對于服務機器人的易用性至關重要。開發人員正在將自動語音識別 (ASR) 和文本轉語音（ TTS ）與服務機器人集成，以實現基本技能，例如理解和用自然語言回答人類問題。這些基于語音的技術構成了語音 AI 。

這篇文章解釋了 ASR 和 TTS 如何在服務機器人應用中使用。我提供了一個演練，說明如何根據機器人的部署位置，使用針對行業特定術語、語言和方言的語音 AI 軟件工具定制它們。

為什么要在服務機器人應用中添加語音 AI ？

服務機器人就像元宇宙中的數字人，只是它們在物理世界中運行。這些服務機器人可以幫助支持倉庫工作人員，執行危險任務，同時遵循人工指令，甚至可以協助需要非接觸式服務的活動。例如，酒店業的服務機器人可以招呼客人、搬運行李和接受訂單。

為了讓所有這些服務機器人能夠以類似人類的方式理解和響應，開發人員必須結合實時運行的高精度語音 AI 。

支持語音 AI 的服務機器人應用示例

今天，服務機器人被廣泛應用于各行各業。

餐廳

在線送餐服務在全球范圍內越來越受歡迎。為了在不影響質量的情況下處理客戶需求的增加，服務機器人可以幫助員工完成諸如接單或親自為客戶送餐等任務。

醫院

在醫院，服務機器人可以通過處理與患者相關的任務來支持和授權患者護理團隊。例如，支持語音 AI 的服務機器人可以與患者進行移情對話，為他們提供陪伴或幫助改善他們的心理健康狀況。

環境輔助生活

在環境輔助生活環境中，技術主要用于支持老年人或弱勢成年人的獨立性和安全性。服務機器人可以協助日常活動，例如將食物托盤從一個位置運送到另一個位置，或者使用智能機器人藥片分配器及時管理藥物。借助語音 AI 技能，服務機器人還可以提供情感支持。

服務機器人參考體系結構

服務機器人以多種方式幫助企業提高質量保證和提高生產力：

協助一線員工在餐廳或制造環境中完成日常重復任務
幫助客戶在零售店找到所需物品
為醫生和護士提供醫院的患者保健服務

在這些設置中，機器人必須能夠準確地處理和理解用戶正在轉發的內容。這對于可能發生危險或嚴重傷害的情況尤其如此，例如醫院。能夠與人類自然對話的服務機器人也有助于為應用程序提供積極的整體用戶體驗。

Workflow architecture diagram showing how speech inputs map to robot tasks through a dialog manager and back out as text converted to speech. — *圖 1 。服務機器人設計審查工作流架構*

圖 1 顯示了服務機器人使用語音識別來理解用戶在說什么，使用 TTS 以合成語音響應用戶。其他組件，如 NLP 和對話管理器，用于幫助服務機器人理解上下文并生成用戶問題的適當答案。

此外，機器人任務（如感知、導航和映射）下的模塊幫助機器人了解其物理環境并朝正確的方向移動。

服務機器人的語音用戶界面

語音用戶界面包括兩個主要組件：自動語音識別和文本到語音。自動語音識別，也稱為語音到文本，是將原始語音轉換為文本的過程。文本到語音，也稱為語音合成，是將文本轉換為類人語音的過程。

開發語音 AI 管道有其自身的挑戰。例如，如果服務機器人部署在餐館中，它應該能夠理解 matcha 、 cappuccino 和 ristretto 等單詞。它甚至應該在嘈雜的環境中轉錄，因為大多數與這些應用程序交互的人都在開放空間中。

機器人不僅必須理解正在說的話，而且還應該能夠正確地說出這些話。同樣，每個行業都有自己的術語，這些機器人必須實時理解和響應。

自動語音識別

Diagram showing the models and modules of an end-to-end speech-to-text pipeline (all are listed in the post). — *圖 2 :語音到文本管道*

ASR 管道中每個模型或模塊的角色如下：

feature extractor 將原始音頻轉換為譜圖或 mel 譜圖。
acoustic model 獲取這些譜圖并生成一個矩陣，該矩陣在每個時間步長上具有字符或單詞的概率。
解碼器和語言模型 將這些字符/單詞組合成一份成績單。
標點和大寫模型 在正確的位置應用逗號、句點和問號，以提高可讀性。

文本到語音

Diagram showing the models and modules of an end-to-end text-to-speech pipeline (all are listed in the post). — *圖 3 ：文本到語音管道*

TTS 管道中每個模型或模塊的角色如下：

在 文本規范化和預處理 階段，文本被轉換為動詞形式。例如：“ at 10 : 00 ” – >“ at ten 點鐘”
text encoding module 將文本轉換為編碼矢量。
pitch predictor 預測你必須給出特定單詞的高低，而 duration predictor 預測發音一個字符或單詞需要多長時間。
spectrogram generator 使用編碼向量和其他支持向量作為輸入來生成譜圖。
vocoder model 將頻譜圖作為輸入，并產生類似人類的聲音作為輸出。

語音 AI 軟件套件

NVIDIA 提供各種數據集、工具和 SDK ，幫助您構建端到端語音 AI 管道。根據您所在行業的特定詞匯、語言和方言定制管道，并在幾毫秒內運行，以實現自然和有趣的交互。

數據集集合

為了使語音 AI 技術民主化和多樣化， NVIDIA 與 Mozilla Common Voice （ MCV ）合作。 MCV 是一個眾包項目，志愿者將語音數據提供給公共數據集，任何人都可以使用該數據集來訓練語音技術。您可以從 MCV 下載各種語言音頻數據集，以開發 ASR 和 TTS 模型。

NVIDIA 還與 Defined.ai 合作，后者是一家培訓數據的一站式商店。您可以下載多個領域、語言和口音的音頻和語音訓練數據，以用于語音 AI 模型。

預訓練模型

NGC 提供了在各種開放和專有數據集上訓練的幾個預訓練模型。所有型號都在 NVIDIA DGX 服務器上進行了數十萬小時的優化和培訓。

您可以在相關數據集上微調這些高度精確的預訓練模型，以進一步提高準確性。

開源工具

如果您正在尋找開源工具， NVIDIA 提供 NeMo ，這是一個用于構建和訓練最先進的 AI 語音和語言模型的開源框架。 NeMo 建立在 PyTorch 和 PyTorch Lightning 之上，使您可以輕松開發和集成已經熟悉的模塊。

語音 AI SDK

使用 NVIDIA Riva ，一個免費的 GPU 加速語音 AI SDK ，構建和部署完全可定制的實時 AI 管道。 Riva 通過 NGC 提供最先進的、高度精確的預訓練模型：

英語
西班牙的
普通話
印地語
俄語
韓國人
德國的
法語
葡萄牙語

日語、阿拉伯語和意大利語即將推出。

使用 NeMo ，您可以 fine-tune these pretrained models 了解特定行業的行話、語言、方言和口音，并優化語音 AI 技能，以便實時運行。

您可以在所有云、本地、邊緣和嵌入式設備上部署 Riva 流式或離線技能。

在嵌入式機器人應用程序上運行 Riva 語音 AI 技能

在本節中，我將向您展示如何在嵌入式設備上使用 Riva 運行開箱即用的 ASR 和 TTS 技能。為了獲得更好的準確性和性能， Riva 還允許您自定義或微調特定領域數據集上的模型。

您可以在流媒體和離線模式下運行 Riva 語音 AI 技能。首先，在嵌入式系統上設置并運行 Riva 服務器。

先決條件

Access to NGC .
- 按照所有步驟，可以從命令行界面（ CLI ）運行ngc命令。
訪問 NVIDIA Jetson Orin 、 NVIDIA [CVK4] AGX Xavier 或 NVIDIA ZVK4] NX Xavier 。
Jetson 平臺上的 NVIDIA JetPack 5.0.2 版。

有關詳細信息，請參閱 Support Matrix 。

服務器設置

通過運行以下命令從 NGC 下載腳本：

ngc registry resource download-version nvidia/riva/riva_quickstart_arm64:2.7.0

初始化 Riva 服務器：

bash riva_init.sh

啟動 Riva 服務器：

bash riva_start.sh

有關最新步驟的詳細信息，請參閱 Quick Start Guide 。

運行 C ++ ASR 客戶端

對于嵌入式， Riva 服務器附帶了示例客戶端，您可以無縫地使用它們進行推理。

為流式 ASR 運行以下命令：

riva_streaming_asr_client --audio_file=/opt/riva/wav/en-US_sample.wav

有關為您的行業特定術語、語言、方言和口音定制 Riva ASR 模型和管道的更多信息，請參閱 Riva 文檔中 Model Overview 上的說明。

運行 C ++ TTS 客戶端

對于嵌入式上的 Riva TTS 客戶端，運行以下命令以合成音頻文件：

riva_tts_client --voice_name=English-US.Female-1 \
                --text="Hello, this is a speech synthesizer." \
                --audio_file=/opt/riva/wav/output.wav

有關在域特定數據集上定制 TTS 模型和管道的更多信息，請參見 Riva User Guide 中的 Model Overview 。

開發語音 AI 應用程序的資源

語音人工智能使服務機器人和其他交互式應用程序能夠理解細微差別的人類語言并輕松響應。

從呼叫中心的真人到各個行業的服務機器人，它賦予了一切力量。要了解在現實生活中，語音 AI 技能是如何與能取飲料的機器狗相結合的，請參見 Low-code Building Blocks for Speech AI Robotics 。

或者，瀏覽 speech AI posts 了解 speech AI concepts 、 speech recognition deployment challenges and tips 或 unique ASR applications 。

您還可以訪問開發人員電子書，如 End-To-End Speech AI pipelines 以了解有關語音 AI 管道中的模型和模塊的更多信息， Building Speech AI Applications 以了解如何為應用程序構建和部署實時語音 AI 管道。

語音 AI 技術實現與服務機器人的自然交互

為什么要在服務機器人應用中添加語音 AI ？

支持語音 AI 的服務機器人應用示例

餐廳

醫院

環境輔助生活

服務機器人參考體系結構

服務機器人的語音用戶界面

自動語音識別

文本到語音

語音 AI 軟件套件

數據集集合

預訓練模型

開源工具

語音 AI SDK

在嵌入式機器人應用程序上運行 Riva 語音 AI 技能

先決條件

服務器設置

運行 C ++ ASR 客戶端

運行 C ++ TTS 客戶端

開發語音 AI 應用程序的資源

相關資源

標簽

關于作者

語音 AI 技術實現與服務機器人的自然交互

為什么要在服務機器人應用中添加語音 AI ？

支持語音 AI 的服務機器人應用示例

餐廳

醫院

環境輔助生活

服務機器人參考體系結構

服務機器人的語音用戶界面

自動語音識別

文本到語音

語音 AI 軟件套件

數據集集合

預訓練模型

開源工具

語音 AI SDK

在嵌入式機器人應用程序上運行 Riva 語音 AI 技能

先決條件

服務器設置

運行 C ++ ASR 客戶端

運行 C ++ TTS 客戶端

開發語音 AI 應用程序的資源

相關資源

標簽

關于作者

相關文章

深度學習正在改變 ASR 和 TTS 算法

語音 AI 簡介

相關文章

使用 NVIDIA Jetson Orin Nano 開發套件開發人工智能機器人、智能視覺系統等

利用 NVIDIA BioNeMo 服務構建用于藥物發現的生成人工智能管道

使用 NVIDIA TAO Toolkit 5.0 訪問最新的視覺 AI 模型開發工作流

在 NVIDIA Base 指揮平臺上設計具有靈活工作流的數字孿生

借助 NVIDIA AI 和路徑跟蹤技術實現超現實