• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    對話式人工智能

    使用 ASR 自定義增強電話客戶服務

    ?

    自動語音識別 (ASR) 是正確理解他人和進行自然對話的核心。為了打造客戶主導的語音助手并通過電話實現客戶服務交互自動化,公司必須通過理解、同理心和清晰度等品質來解決贏得呼叫者信任的獨特挑戰。

    從語音識別的角度來看,受電話限制的語音本質上具有挑戰性。背景噪聲、糟糕的通話質量以及各種方言和口音使得理解調用者的詞語變得困難。傳統語言理解系統通常對語音的支持有限,人們的說話方式與他們的輸入或文本方式存在本質區別。

    在本文中,我們將討論 PolyAI 與第三方、開箱即用和內部定制的探索之旅 NVIDIA Riva ASR 解決方案。我們的目標是提供語音體驗,讓呼叫者可以以自己喜歡的方式說話,并在對話的每個回合中提供有用的自然響應。內部微調的 Riva ASR 模型顯著提高了各種不同驗證真實客戶呼叫數據集的準確性。

    開箱即用的 ASR 挑戰,實現有效的客戶交互

    開箱即用的 ASR 工具通常適用于無噪音的環境以及發音清晰且具有預期口音的演講者。這些系統無法預測呼叫者會說什么、怎么說或說話節奏。開箱即用的解決方案雖然有用,但無法根據特定的業務需求和目標進行定制。

    為了實現能夠高效處理客戶交互的準確語音助手,組織需要一個可以微調的 ASR 系統,以顯著提高詞錯誤率 (WER).

    構建內部 ASR 解決方案的優勢和挑戰

    為了真正理解不同地方、不同口音和雜環境中的人,對話式系統可以使用多個 ASR 系統、音素匹配、偏置關鍵字和后處理工具。

    PolyAI 的機器學習團隊通常在多個模型上嚴格測試了多個 ASR 系統,并應用口語理解 (SLU) 原則來提高轉錄準確性(圖 1)。這項工作顯著提高了真實客戶電話通話中語音識別的準確性。

    進一步優化呼叫者體驗需要開發內部解決方案。

    Diagram shows stack components: ASR systems, phoneme matching, biasing keywords, and post-processing tools.
    圖 1.PolyAI 技術堆棧

    PolyAI 技術堆棧使語音助手能夠準確理解字母數字輸入和來自不同地方、不同口音和雜環境中的人員。

    開發內部解決方案方法具有以下優勢:

    • 更高的準確性和性能:根據用戶與系統對話的具體方式,對大量數據和語音活動檢測器 (VAD) 上的模型參數進行靈活微調。
    • 完全合規:采用自帶云 (BYOC) 方法,向客戶提供模型和整個對話式系統,而無需向第三方提供商傳輸數據。

    除了巨大的優勢之外,還有一系列獨特的挑戰。構建內部解決方案需要在以下領域進行大量投資:

    • 昂貴的預訓練數據:大多數模型需要大量高質量的帶注釋的預訓練數據。
    • 延遲優化:在研究過程中,這一領域經常被忽略。與文本聊天對話不同,語音對話的響應時間以毫秒計。每毫秒都至關重要。在對話開始時增加延遲可以減少調用大型語言模型 (LLM) 或文本轉語音 (TTS) 模型的時間。

    為內部解決方案選擇和微調 ASR 模型

    在廣泛搜索解決內部構建挑戰的 ASR 解決方案之后,PolyAI 決定采用 NVIDIA Riva,原因如下:

    • 預訓練模型的尖端準確性:使用大量的對話式語音數據進行訓練。
    • 通過完整的模型自定義提高準確性:包括對聲學模型進行定制,以適應不同的口音、嘈雜環境或音頻質量不佳的情況。
    • 高推理性能:基于 NVIDIA Triton 推理服務器 并經過實戰測試,能夠高效處理機器學習服務。

    使用內部 ASR 模型進行的初始試驗為微調過程提供了寶貴見解。這導致開發了一種穩健而靈活的微調方法,其中包含各種驗證集,以確保獲得最佳性能。

    用于測試開箱即用和內部 ASR 解決方案的對話式系統

    典型的對話式系統使用公共交換電話網絡 (PSTN) 或會話初始化協議 (SIP) 連接將通話傳輸到技術堆棧。

    然后,來自這些系統的呼叫信息將發送到第三方 ASR 云服務提供商或內部 ASR 解決方案。對于 PolyAI 的 ASR 解決方案測試(圖 2),在轉錄通話內容后,該信息將發送到 PolyAI 語音助手,由自然語言模型生成響應。然后,通過內部 TTS 或第三方提供商將響應傳輸回音頻波。

    Diagram includes a telephony gateway, audio gateway, natural language models, and text-to-speech.
    圖 2.用于測試 ASR 解決方案的 PolyAI 架構

    創建真實的 ASR 測試數據集

    PolyAI 發現,在英國和美國的區域通話中,有 20 個小時的最具挑戰性的對話需要平均分配,以測試第三方、開箱即用和內部 ASR 解決方案的準確性。這些通話是在雜的環境中進行的,而其他 ASR 模型(內部或第三方供應商)以前也無法通過這些環境進行。

    這些失敗調用從單詞語音(例如“yes”或“no”答案)到更長的響應不等。PolyAI 手動對其進行注釋,并建立了低于 1%的詞錯誤率 (WER),這在處理微調 ASR 模型時至關重要。

    內部定制 ASR 解決方案的準確性顯著提高

    通過僅使用 20 小時的數據微調兩個內部 ASR 模型,已顯著提高了美國英語模型的平均 WER,與 CSP 的最佳模型相比,WER 降低了約 8.4%(表 1)。選擇合適的模型非常重要,因為不同的開箱即用型 ASR 模型的平均值 WER 為 44.51%.

    更值得注意的是,內部 US English ASR 解決方案的 WER 中位數為 0%.這一成果在各種數據集中得到驗證,確保微調不會過擬合特定用例。這種通用性使模型能夠在人們使用特定關鍵字的不同項目中表現出色,從而能夠準確理解特定短語并提高整體中位數性能。

    美式英語 提供商 模型 語言 WER 平均值[%] WER MEdian[%]
    0 Poly AI 微調 En-US 20.32 0.00
    1 Poly AI 精細 En-All (全部) 22.19 7.14
    2 CSP 最佳 En-US 22.22 7.69
    9 CSP 最差 En-US 44.11% 33.33
    表 1.PolyAI 內部的美國英語 ASR 解決方案通過聲學模型微調實現了比第三方開箱即用 ASR 更高的準確性

    英國英語 ASR 解決方案也觀察到類似的模式(表 2)。

    英式英語 提供商 模型 語言 WER 平均值[%] WER MEdian[%]
    0 Poly AI 微調 英國 20.99 英鎊 8.33
    1 Poly AI 精細 En-All (全部) 22.77 10.00
    2 CSP 最佳 英國 25.15 14.29
    9 CSP 最差 英國 33.46 25.00
    表 2.PolyAI 內部英國英語 ASR 解決方案通過聲學模型微調實現了比第三方開箱即用 ASR 更高的準確性

    僅 20 小時的微調數據表明了進一步微調的潛力。更重要的是,在對各種不同的驗證數據集進行評估時,內部微調的 ASR 模型保持了與初始預訓練狀態相同的分數。

    總結

    為了通過電話有效地自動進行客戶交互,完全定制的 ASR 模型在解決語音通道的挑戰(包括背景噪音、通話質量差以及各種方言和口音)方面發揮了關鍵作用。深入了解 PolyAI 的 ASR 轉型之旅,探索語音 AI 和 NVIDIA Riva 通過查看 語音 AI 日 會議。

    PolyAI 是 NVIDIA 初創加速計劃 下為企業提供的客戶主導的對話式平臺。要打造具有卓越語音體驗的客戶服務,請查看 PolyAI 的產品注冊以獲取免費試用。同時,歡迎加入 NVIDIA Riva 論壇,參與語音 AI 對話。

    ?

    0

    標簽

    人人超碰97caoporen国产