• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    對話式人工智能

    使用 NVIDIA 定制語音 AI 增強電信客戶體驗

    ?

    電信行業正在改變通信方式。為了提供可靠、不間斷的服務,企業正在應對提供最佳客戶體驗的挑戰。

    這種最佳的客戶體驗是大型電信服務提供商的許多長期客戶所沒有的。以杰克為例。他的電話被掛了 10 分鐘,這使他上班遲到了。與他交談過的第三位代理人吉爾閱讀了前一位代理人提供的簡短說明,但很難理解。因此,她問了杰克幾個問題來澄清。由于沒有同事, Jill 查閱了多份政策文件來解決 Jack 的擔憂。幾個資源之后,吉爾找到了必要的信息,但遺憾的是,杰克已經結束了通話。

    漫長的等待時間、復雜的服務請求和缺乏個性化是客戶面臨的一些常見問題,導致了不滿和流失。為了克服這些挑戰,電信行業正在轉向人工智能對話式 AI,一種利用語音、翻譯和自然語言處理( NLP )來促進類人交互的技術。

    這篇文章探討了為什么對話式人工智能系統是必不可少的,以及為什么在下游任務中具有高水平的轉錄準確性以獲得最佳性能很重要。我們解釋NVIDIA Riva語音識別定制技術Quantiphi已用于提高轉錄準確性。

    對話式人工智能系統的準確性

    在電信聯絡中心,由于幾個原因,高度準確的對話式人工智能系統至關重要。對話式人工智能系統可以幫助代理人從通話互動中提取有價值的信息,并做出明智的決定,從而提高服務質量和客戶體驗

    對話式人工智能系統的一個關鍵組成部分是自動語音識別 (ASR),也稱為語音識別或語音轉文本。電信聯絡中心的下游任務在很大程度上依賴 ASR 系統提供的準確轉錄。這些任務包括廣泛的應用程序,例如:

    • 客戶洞察
    • 情緒分析
    • 呼叫分類
    • 呼叫轉錄

    快速準確的響應對于高效和有效的客戶服務至關重要。這意味著減少單個組件(包括 ASR )的總體延遲非常重要。通過減少完成任務所需的時間,聯絡中心代理可以提供及時的解決方案,從而提高客戶滿意度和忠誠度。

    此外,包括標點符號在內的準確轉錄提高了可讀性。清晰、標點清晰的文字記錄有助于代理商更好地理解客戶的查詢,促進清晰的溝通和問題解決。這反過來又提高了客戶互動的整體效率和有效性。

    NVIDIA Riva 自動語音識別流水線

    語音到文本接收音頻流作為輸入,對其進行轉錄,并生成轉錄后的文本作為輸出(圖 1 )。首先,音頻流進入音頻特征提取器和預處理器,其過濾掉噪聲并捕獲頻譜圖或 mel 頻譜圖中的音頻頻譜特征。然后,聲學模型和語言模型一起將語音轉錄成文本。在轉錄的文本中添加標點符號以提高可讀性

    Architecture diagram showing end-to-end ASR pipeline
    圖 1 。端到端自動語音識別管道示意圖

    ASR 系統的性能評估指標

    這個ASR 系統性能可以使用三個度量進行測量:

    1. 精確是基本的,因為它直接影響轉錄的質量和可靠性。通過單詞錯誤率( WER )等指標來測量準確性,可以根據系統轉錄口語的程度來評估系統。低 WER 在聯絡中心至關重要,因為它可以確保準確地捕捉客戶的查詢和互動,使代理商能夠提供準確和適當的響應。
    2. 延遲是生成音頻片段的轉錄本所花費的時間。為了保持引人入勝的體驗,字幕的延遲應不超過幾百毫秒。轉錄系統必須以最小的延遲提供字幕。低延遲確保了無縫和引人入勝的客戶體驗,提高了整體效率和客戶滿意度。
    3. 費用在足夠的計算基礎設施上開發和運行轉錄服務是另一項重要措施。盡管與人類口譯員相比,基于人工智能的轉錄成本較低,但成本必須與其他因素一起權衡。

    在聯絡中心環境中,轉錄系統必須在準確性方面表現出色,以提供可靠的轉錄,為及時的客戶互動提供低延遲,并考慮成本因素,以確保為組織提供具有成本效益和可行性的解決方案。通過優化所有三個指標,轉錄系統可以有效地支持聯絡中心的運營,并增強客戶服務的交付。

    提高 ASR 準確性的方法

    如圖 2 所示,有幾種技術可以用于實現特定結構域的最佳轉錄準確性,其中最簡單的是word boostingASR 單詞增強包括將重要的、可能是詞匯表外的、特定于領域的單詞的列表作為附加輸入傳遞給模型。這使得 ASR 模塊能夠在推理過程中識別這樣的單詞。

    Architecture diagram showing customization across the ASR pipeline; left to right: speech, feature extraction, acoustic model, decoder model, punctuation model, and text
    圖 2 :通過 ASR 管道進行定制

    在大多數情況下,某些名詞(如公司或服務的名稱)要么不在詞匯表中,要么經常被 ASR 模型誤譯。這些名詞被添加到要增強的單詞列表中。這種策略使我們能夠在請求時輕松提高對特定單詞的識別能力。

    此外, Quantiphi 團隊:

    • 重訓練語言模型在我們自己的自定義數據集上,以使 ASR 引擎適應我們的領域特定術語和短語
    • 微調聲學模型以使 ASR 引擎適應特定的口音和嘈雜的環境。

    定制語音輔助會話人工智能系統

    電信行業客戶聯絡中心面臨的最重大挑戰之一是解決復雜查詢需要很長時間。代理通常需要咨詢多個利益相關者和內部政策文檔,以響應復雜的查詢

    對話式人工智能系統提供相關文檔、見解和建議,從而使聯絡中心代理能夠加快解決客戶查詢

    用于定制語音輔助會話 AI 管道的 Quantiphi 解決方案架構涉及以下內容:

    1. 語音識別管道:通過捕獲口語并將其轉換為文本來創建轉錄
    2. 意向槽模型:識別用戶意向
    3. 語義搜索管道:通過對話框管理器檢索代理查詢的答案

    Quantiphi 構建了一個語義搜索引擎和一個問答解決方案(圖 3 )。它檢索給定查詢的最相關文檔,并為電信公司聯絡中心代理生成簡明答案。

    Diagram showing Quantiphi question-answering solution with components: 1. Speech Recognition: ASR system transcribes the user query to text 2. Intent Identification and Slot Classification: Identifies user intent and entities 3. Answer Extender: It helps in maintaining context and facilitating a continuous and coherent conversation. 4. Semantic Search: Search pipeline that leverages NeMo with an information retrieval system for Question Answering.
    圖 3 。基于語義搜索引擎的 Quantiphi 問答解決方案

    ASR 與問答( QnA )系統一起,也用于虛擬代理和基于化身的聊天機器人。 ASR 轉錄物的準確性對代理輔助、虛擬代理和基于化身的聊天機器人的準確性有重大影響,因為它們是由檢索增強生成( RAG )管道生成的響應的輸入。即使是查詢轉錄方式上的微小差異,也可能導致生成模型提供錯誤的響應

    Quantiphi 團隊嘗試了現成的 ASR 模型,這些模型有時無法正確轉錄專有名詞。當 ASR 轉錄與問答管道結合使用時,其質量至關重要,如以下示例所示:

    查詢:什么是 5G ?

    ASR 成績單:五克是多少。

    發電機響應:如果你在工廠工作一個月,五千是你能賺的錢。

    正確回答:5G 是下一代無線技術。它將比 4G LTE 更快、更可靠、更安全。

    為了克服這些問題,我們使用word-boostinginverse text normalizationcustom vocabulary,訓練語言模型,以及微調聲學模型。

    單詞增強

    諸如 mMTC 和 MEC 之類的單詞(或縮寫詞)經常被錯誤地轉錄。我們已經在單詞助推的幫助下解決了這個問題。考慮以下示例:

    單詞增強前

    邊緣計算,也稱為麥格是一種在網絡邊緣提供云計算能力和 It 服務環境的網絡架構。

    Mtc 財務報表提供深度覆蓋的低帶寬連接的服務區域。

    單詞增強后

    通道邊緣計算也稱為甲基丙烯酸甲酯是一種在網絡邊緣提供云計算能力和 IT 服務環境的網絡架構。

    mMTC 是提供深度覆蓋的低帶寬連接的服務區域。

    之前和之后顯示了反應是如何變化的,即使 n 元的表示方式略有不同。通過反向文本規范化, ASR 模型將“五個 g ”等單詞轉錄為“ 5G ”,從而提高了 QnA 管道在此過程中的性能。

    向 ASR 添加自定義詞匯

    大多數用例通常都有特定領域的單詞和術語與之相關。為了在 ASR 輸出中包含這些單詞,我們將它們添加到詞匯表文件中,并重新構建 ASR 模型。有關更多詳細信息,請參閱教程How to Customize Riva ASR Vocabulary and Pronunciation with Lexicon Mapping.

    訓練 n 元語言模

    存在于 QnA 任務中的上下文通常形成用于訓練 n-gram 語言模型的文本語料庫的良好來源。定制的語言模型導致 ASR 輸出更容易接受域中常見的單詞序列。我們使用了NVIDIA NeMo腳本到train a KenLM model并在構建時將其與 ASR 模型集成。

    微調聲學模

    為了進一步提高 ASR 性能,我們用 10-100 小時的小塊( 5-15 秒)音頻數據及其相應的地面實況文本對 ASR 聲學模型進行了微調。這有助于聲學模型識別地區口音。我們使用Riva Jupyter notebook以及 NeMo 用于該微調。我們使用nemo2riva tool并使用riva-build command.

    主要收獲

    問答和見解提取構成了對話式解決方案,使電信客戶服務代理能夠提供個性化和高效的支持。這提高了客戶滿意度并減少了代理流失。為了實現高精度的 QnA 和見解提取解決方案,有必要提供高精度的轉錄作為管道其余部分的輸入

    Quantiphi 通過自定義語音識別模型實現了最高的準確度NVIDIA RivaASR 單詞增強、反向文本規范化、自定義詞匯、訓練語言模型和微調聲學模型。這在現成的解決方案中是不可能的

    這對杰克和吉爾意味著什么? Jill 配備了電信公司定制的語音輔助對話人工智能應用程序,可以快速掃描人工智能生成的 Jack 之前對話的摘要。就在 Jack 問完一個問題時,她的屏幕上已經填充了解決 Jack 問題的最相關文檔。她迅速地把信息傳達給了杰克。他決定以積極的反饋回答調查,并且仍然按時上班

    Get in touch with experts at Quantiphi開始全面探索對話式人工智能如何深刻增強組織的客戶體驗。如果您有興趣深入了解構建代理輔助解決方案的技術方面,請加入我們的網絡研討會,Empower Telco Contact Center Agents with Multi-Language Speech-AI-Customized Agent Assists.

    ?

    0

    標簽

    人人超碰97caoporen国产