• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    生成式人工智能/大語言模型

    NVIDIA NeMo Retriever 和 NVIDIA NIM 帶來電信網絡運營中心變革

    電信公司面臨的挑戰是如何始終如一地滿足面向最終客戶的服務水平協議(SLA),以確保網絡服務質量。這包括快速故障排除存在復雜問題的網絡設備、確定根本原因,以及在其網絡運營中心(NOC)高效解決問題。

    當前的網絡故障排除和維修流程通常非常耗時、容易出錯,并導致網絡長時間中斷,從而對運營效率和客戶體驗產生負面影響。

    為解決這些問題,Infosys 使用 NVIDIA NIM 推理微服務和 檢索增強生成 (RAG) 構建了一款生成式 AI 解決方案,以自動化網絡故障排除。該解決方案簡化了網絡操作中心(NOC)流程,最大限度地減少了網絡停機時間,并優化了網絡性能。

    借助生成式人工智能構建智能網絡運營中心

    Infosys 是新一代數字服務和咨詢領域的全球領導者,在全球擁有 300 多萬名員工。Infosys 團隊構建了一個 智能網絡運營中心,一個生成式人工智能客戶交互平臺,專為網絡運營商、首席網絡官、網絡管理員和 IT 支持人員設計。

    基于 RAG 的解決方案使用智能聊天機器人為 NOC 員工提供網絡設備的數字化產品信息,并通過快速提供用于診斷和監控的基本、與供應商無關的路由器命令來協助故障排除網絡問題。這縮短了平均解決問題的時間,并增強了客戶服務。

    向量嵌入和文檔檢索面臨的挑戰

    在為智能 NOC 構建聊天機器人時,Infosys 面臨多項挑戰。這些挑戰包括平衡底層生成式 AI 模型的高精度和低延遲,因為在用戶查詢期間,較高的準確性可能會增加模型的延遲,以進一步重新排名檢索到的向量嵌入,從而影響模型的實時響應能力。

    此外,處理特定于網絡的分類、更改網絡設備類型和端點以及復雜的設備文檔使得創建可靠、用戶友好型解決方案變得非常困難。

    CPU 上的向量嵌入過程非常耗時,這可能會嚴重影響用戶體驗,特別是在長時間的作業運行期間。這可能會導致延遲和沮喪。

    使用 LLM 通過 API 進行推理,揭示了延遲的顯著上行趨勢,這一因素本質上增加了整體處理時間,值得關注優化。

    數據收集和準備

    為了應對這些挑戰,Infosys 構建了一個包含特定于網絡設備的手冊和知識構件(例如訓練文檔和故障排除指南)的向量數據庫,以便針對用戶查詢構建上下文響應。其最初的重點包括 Cisco 和 Juniper Networks 設備。使用嵌入模型、自定義塊大小和其他微調參數,Infosys 創建了嵌入,以填充向量數據庫。

    The workflow diagram shows a user inputting a query to a generative AI application, which results in a query embedding sent to a vector database populated with document embeddings from an enterprise’s data. Documents are retrieved and ranked, and then the best-fit document and response are sent back to the user.
    圖 1. 基本檢索增強型生成工作流程的數據預處理管道

    解決方案架構

    Infosys 為其解決方案架構平衡了以下考慮因素和目標:

    • 用戶界面和聊天機器人:使用 React 開發直觀的界面,以創建針對工作流程和高級查詢腳本選項定制的自定義聊天機器人,并使用 Llama 2 70B 模型顯示 NVIDIA NIM 的響應。
    • 數據配置管理:使用NVIDIA NeMo Retriever Embedding NIM (NV-Embed-QA-Mistral-7B) 提供靈活的分塊和嵌入設置,以便用戶定義參數像塊大小、重疊等參數,并從多種嵌入模型中選擇,以獲得最佳性能并控制數據攝取。
    • 向量數據庫選項:實現選擇不同向量數據庫的能力,例如 FAISS,以實現高效數據檢索,確保靈活性、效率和一致響應速度。
    • 后端服務和集成: Create 可靠的后端服務,以管理和配置聊天機器人,包括用于與外部系統集成的 RESTful API,并確保身份驗證和授權的安全。
    • 與 NIM 集成: 集成 NIM 微服務以提高推理的準確性、性能和成本。
    • 配置:
      • 10 個 NVIDIA A100 80-GB GPUs 以及八個運行 NIM 的 NVIDIA A100 GPU
      • 兩個運行 NeMo Retriever 微服務的 A100 GPU
      • 128 個 CPU 核心
      • 1 TB 存儲
    • Guardrails:使用 NVIDIA NeMo Guardrails,一個開源工具包,可輕松地向基于語言模型(LLM)的對話式應用添加可編程防護欄,并提供漏洞防護。
    Workflow diagram shows a user icon interacting with a generative AI chatbot, which uses NVIDIA NeMo Guardrails to align the prompt, NVIDIA NeMo Retriever microservices to generate vector embeddings and rerank retrieved documents, and NVIDIA NIM to send an accurate, safe, and quick response back to the user.
    圖 2. 用戶提示生成式 AI 聊天機器人和后端 RAG 工作流以提供快速準確響應的工作流程

    使用 NVIDIA NIM 和 NeMo Guardrails 的 AI 工作流程

    為了構建智能 NOC,Infosys 使用了 NVIDIA NIM 和 NVIDIA NeMo 的自托管實例來微調和部署基礎 LLM。該團隊使用 NIM 公開了類似 OpenAI 的 API 端點,為其客戶端應用程序啟用了統一的解決方案。

    Infosys 使用 NVIDIA NeMo Retriever 為其矢量數據庫檢索和重新排序工作流程提供支持。NVIDIA NeMo Retriever 是一系列微服務,提供用于索引和查詢用戶數據的單一 API,使企業能夠將自定義模型與各種業務數據無縫連接,并提供高度準確的響應。有關更多信息,請參閱使用 NVIDIA NeMo Retriever 將企業數據轉換為可行見解

    借助由 NVIDIA 提供支持的 NeMo Retriever,Infosys 在其文本嵌入模型上實現了超過 90% 的準確率。

    NV-Embed-QA-Mistral-7B 在 Massive Text Embedding Benchmark (MTEB) 中排名第一,在 56 項任務中表現出色,包括檢索和分類。該模型的創新設計使 NV-Embed 能夠關注隱向量,以實現更好的池化嵌入輸出,并采用雙階段指令調整方法來提高準確性。

    Bar graph showing accuracy comparisons for two embedding models. NV-Embed-QA-Mistral-7B achieved over 90% accuracy for text embeddings, outperforming All-MPNET-Base-v.
    圖 3.NV-Embed-QA-Mistral-7B 嵌入模型性能

    Infosys 使用了 NeMo Retriever 重新排序?NIM(Rerank-QA-Mistral-4B),該方法針對查詢從向量數據庫中優化檢索到的上下文。當檢索到的上下文來自具有不同相似度分數的不同數據存儲時,此步驟至關重要。重新排序基于經過微調的 Mistral 7B 模型,使用 7B 參數,并在不犧牲性能的情況下提高效率。

    The bar graph shows accuracy comparisons for nv-rerank-qa_v1 compared to a base model without reranking and using Mistral 7B.
    圖 4. nv-rerank-qa_v1 重排名模型提高了準確率

    使用 NV-Embed-QA-Mistral-7B 模型將基準模型的準確度提高了 19%(從 70%提高到 89%),從而在生成響應時整體提高性能。使用 nv-rerank-qa_v1 重新排名模型將準確度提高了 2%以上。將 NeMo Retriever 重新排名模型添加到 RAG 管道中提高了 LLM 響應的準確性和相關性。

    成果

    延遲和準確性是評估語言模型(LLMs)性能的兩個關鍵因素。Infosys 測量了這兩個因素,并將結果與使用 NVIDIA NIM 部署的模型進行了比較,基準模型的結果也被納入其中。

    LLM 延遲評估

    Infosys 測量了大語言模型延遲,以比較使用和不使用 NVIDIA 神經機器翻譯器的結果 (表 1)。

    沒有 NIM,Combo 1 的 LLM 延遲為 2.3 秒。使用 NIM 部署具有 NeMo Retriever 嵌入和重新排序微服務的 Llama 3 70B 模型時,Combo 5 的 LLM 延遲為 0.9 秒,比基準模型提高了近 61%。

    ? 不使用 NIM 使用 NIM
    ? 組合 1 組合 2 組合 3 組合 4 組合 5
    延遲 (秒) 2.3 1.9 1.1 1.3 0.9
    表 1.LLM 延遲比較
    The bar graph shows latency comparison with two setups not using NVIDIA NIM and three setups using NVIDIA NIM. NIM improves LLM latency by nearly 61%.
    圖 5. 五種不同語言模型的延遲比較

    LLM 準確性評估

    Infosys 測量了智能 NOC 的大語言模型延遲,以比較使用和不使用網絡基礎設施管理的結果 (表 2)。

    在比較同一模型時,Infosys 在不使用 NIM 的情況下實現了高達 85% 的 LLM 準確率,在使用 NeMo Retriever 嵌入和重新排序 NIM 時實現了 92% 的 LLM 準確率,與基礎模型相比,絕對提高了 22%。這表明 NVIDIA NIM 在優化 RAG 系統準確性方面的有效性,使其成為實現更準確、更可靠的模型輸出的重要增強功能。

    ? 關閉 NIM 開啟 NIM
    ? 組合 1 組合 2 組合 3 組合 4 組合 5
    框架 朗鏈 美洲豹指數 朗鏈 朗鏈 朗鏈
    數據塊大小、數據塊重疊 512100 512100 512100 512100 512100
    嵌入模型 All-mpnet-base-v 全 MiniLM-L6-v2 NV-Embed-QA-Mistral-7B NV-Embed-QA-Mistral-7B NV-Embed-QA-Mistral-7B
    重新排名模型 nv-rank-qa_v1 nv-rank-qa_v1
    TRT-LLM
    Triton
    向量數據庫 FAISS CPU Milvus FAISS GPU FAISS GPU FAISS GPU
    LLM Ollama (Mistral 7B) 頂點 AI (Cohere-command) NIM LLM (Mistral-7B) NIM LLM
    (Mistral-7B)
    NIM LLM
    (Lama-3 70B)
    準確率 70% 85% 89% 91% 92%
    表 2. 生成式 AI 模型的準確度比較
    The bar graph shows the accuracy comparison with two setups not using NVIDIA NIM and three setups using NVIDIA NIM. NIM improves absolute LLM latency by 22%.
    圖 6. 五種不同語言模型的準確度比較

    結束語

    通過使用 NVIDIA NIMNVIDIA NeMo Retriever 微服務部署其智能網絡運營中心,Infosys 將大語言模型延遲降低了 61%,準確率絕對提高了 22%。部署在 NIM 上的 NeMo Retriever 嵌入和重新排序微服務通過優化的模型推理實現了這些收益。

    集成用于嵌入和重新排名的 NeMo Retriever 微服務可顯著提高 RAG 的相關性、準確性和性能。重新排名增強了上下文理解,而優化的嵌入確保了準確的響應。這種集成提高了網絡運營中心的用戶體驗和運營效率,使其成為系統優化的關鍵組件。

    了解 Infosys 如何通過由 NVIDIA 提供支持的自動化工作流程消除網絡停機時間

    開始使用 NVIDIA NIMNeMo Retriever NIM 微服務部署生成式人工智能應用。探索更多 AI 解決方案為電信運營

    ?

    0

    標簽

    人人超碰97caoporen国产