對語音識別技術感興趣?注冊我們的 語音 AI 新聞稿 .
語音人工智能是一種能夠使用語音與計算機系統進行通信的技術。指揮車內助手或操作智能家居設備?支持人工智能的語音界面可以幫助您與設備交互,而無需在屏幕上鍵入或點擊。
人工智能的語音領域相對較新。但隨著語音交互的成熟并擴展到新的設備和平臺,開發人員必須跟上不斷發展的術語。
在本文中,我介紹了語音人工智能領域的關鍵概念,描述了它在更大的人工智能領域中的位置,并討論了它與其他科學技術領域的關系。
基本概念
您可能聽說過,甚至熟悉這些技術,但為了完整起見,以下是一些基本知識:
- 人工智能 ( AI )是指創造與人類認知能力相匹配或超過人類認知能力的智能機器的廣泛學科。
- 機器學習 ( ML )是人工智能的一個子領域,涉及創建方法和系統,學習如何使用過去的數據執行特定任務。
- 深度學習 ( DL )是一系列 ML 方法,基于 人工神經網絡 具有多個層次,通常使用大量數據進行訓練。
語音人工智能系統如何與人工智能、 ML 和 DL 相關?
語音人工智能是將人工智能用于基于語音的技術。語音人工智能系統的核心組件包括:
- 一自動語音識別(語音識別) 該系統也稱為語音到文本、語音識別或語音識別。這將語音信號轉換為文本。
- A.文本到語音( TTS )該系統也稱為語音合成。這將文本轉換為語音形式。
語音人工智能是 對話人工智能 ,主要從 DL 和 ML 領域繪制其技術。 AI 、 ML 、 DL 和語音 AI 之間的關系可以用圖 1 中的維恩圖表示。

圖 1 顯示,會話人工智能是基于語言的應用程序的更大范圍,其中并非所有應用程序都包括語音組件(語音)。
以下是語音人工智能技術如何與其他工具和技術并肩工作,形成一個完整的對話人工智能系統。
對話人工智能
對話人工智能是一門涉及設計智能系統的學科,該系統能夠通過自然語言以對話的方式與人類用戶進行交互。商業示例包括家庭助理和聊天機器人(例如,保險索賠聊天機器人或旅行社聊天機器人)。
對話可以有多種模式,包括音頻、文本和手語,但當輸入和輸出是口語自然語言時,就有了一個基于語音的對話人工智能系統(圖 2 )。
典型的基于語音的對話人工智能系統的組件包括:
- A.語音接口通過語音人工智能技術,使系統能夠通過自然語言口語格式與用戶交互。
- A.對話系統管理與用戶的對話,同時與外部履行系統交互,以滿足用戶的需求。它由兩部分組成:
- 這個履行引擎執行對話人工智能系統的功能性任務,例如:檢索天氣信息、閱讀新聞、訂票、提供股市信息、回答瑣事問答等等。一般來說,它們不被視為對話人工智能系統的一部分,而是緊密合作以滿足用戶的需求。
語音人工智能概念
在本節中,我們將深入探討語音人工智能的特定概念:自動語音識別和文本到語音。
自動語音識別
典型的基于深度學習的 ASR 管道包括五個主要組件(圖 3 )。

特征提取程序
特征提取器將音頻信號分割為固定長度的塊(也稱為時間步長),然后將這些塊從時域轉換為頻域。
聲學模型
這種機器學習模型(通常是多層深度神經網絡)預測音頻數據每個時間步的字符概率。
譯碼器和語言模型
譯碼器將聲學模型給出的概率矩陣轉換為字符序列,字符序列依次生成單詞和句子。
語言模型( LM )可以給出一個分數,表示句子出現在其訓練語料庫中的可能性。例如,在英語語料庫上訓練的 LM 會判斷“識別語音”比“毀掉一個漂亮的桃子”更可能,同時也會判斷“ Je suis un é tudiant ”不太可能(因為這是一個法語句子)。
當與 LM 結合時,解碼器將能夠將其“聽到的”(“我午餐吃玫瑰牛肉”)更正為更符合常識的內容(“我午餐吃烤牛肉”),因為 LM 對后一句話的評分高于前者。
標點和大寫模式
標點和大寫模型添加標點并大寫解碼器生成的文本。
反向文本規范化模型
最后,應用反向文本規范化( ITN )規則將文字格式轉換為所需的書面格式,例如,“十點”到“ 10 : 00 ”,或“十美元”到“ 10 美元”。
其他 ASR 概念
文字錯誤率 ( WER )和字符錯誤率( CER )是 ASR 系統的典型性能指標。
WER 是錯誤數除以口語單詞總數。例如,如果在總共 50 個口語單詞中有 5 個錯誤, WER 將為 25% 。
除字符而非文字外, CER 的操作方式類似。日語和普通話等語言沒有用特定標記或定界符分隔的“單詞”(如英語的空格)。

文本到語音( TTS )
文本到語音步驟通常使用兩種不同的方法實現:
- A.兩級管道:分別訓練兩個獨立的網絡以將語音轉換為文本:頻譜圖生成器網絡和聲碼器網絡。
- 一端到端管道:使用一個模型直接從文本生成音頻。
兩態管道的組成部分包括:
- 文本規范化模型:將書面格式的文本轉換為口頭格式,例如,“ 10 : 00 ”到“ 10 點”,“ 10 美元”到“ 10 美元”。這是 ITN 的相反過程。
- 頻譜圖發生器網絡:TTS 管道的第一階段使用神經網絡從文本生成頻譜圖。
- 聲碼器網絡:TTS 管道的第二階段將來自頻譜圖生成器網絡的頻譜圖作為輸入,并生成自然發音語音。
語音合成標記語言
其他 TTS 概念包括語音合成標記語言( SSML ),它是一種基于 XML 的標記語言,允許您指定如何將輸入文本轉換為合成語音。您的配置可以使用音高、發音、語速和音量等參數使生成的合成語音更具表現力。
常見的 SSML 標記包括以下內容:
- 韻律學用于自定義生成語音的基音、語速和音量。
- 音素用于手動覆蓋生成的合成語音中單詞的發音。
平均意見分數
為了評估 TTS 引擎的質量, 平均意見分數 ( MOS )經常使用。 MOS 源于電信領域,定義為人類評估人員在主觀質量評估測試中對提供的刺激給出的算術平均值。
例如,一個常見的 TTS 評估設置是一群人聽生成的樣本,并給每個樣本一個從 0 到 5 的分數。然后將 MOS 計算為總體評估者和測試樣本的平均分數。
如何開始使用語音人工智能
語音人工智能如今已成為主流,成為消費者日常生活中不可或缺的一部分。企業正在發現通過整合語音人工智能功能為其產品帶來附加值的新方法。
獲得語音人工智能專業知識的最好方法是體驗它。有關如何為對話人工智能應用程序構建和部署實時語音人工智能管道的更多信息,請參閱免費的 構建語音人工智能應用程序?電子書.
?