企業生成和存儲的多模態數據比以往任何時候都多,但傳統的檢索系統在很大程度上仍然以文本為重點。雖然他們可以從書面內容中獲得見解,但不會提取嵌入表格、圖表和信息圖(通常是文檔中信息最密集的元素)的關鍵信息。
如果沒有多模態檢索系統, 檢索增強型生成(RAG) 用戶可能會丟失隱藏在這些復雜數據格式中的關鍵見解,從而在企業知識檢索中造成重大盲點。了解適用于 RAG 的 NVIDIA AI Blueprint 。
在本文中,我們將探索適用于 RAG 的 AI Blueprint 的最新進展,并深入探討背后的核心技術 – NVIDIA NeMo Retriever 。探索新的基準測試,了解 NVIDIA 合作伙伴如何使用此藍圖高效地提取、索引和查詢多模態數據。
深入了解藍圖:快速數據提取和準確檢索
適用于 RAG 的 AI Blueprint 是一個 GPU 加速的參考示例,使開發者能夠構建針對企業數據量身定制的可擴展、上下文感知的檢索工作流 。將 LLM 與企業組織的現有知識庫關聯起來,可以提高準確性和吞吐量,這對于現代生成式 AI 應用至關重要。 本節將深入探討推動高效且可擴展的數據提取、優化檢索性能和高級企業功能的關鍵技術。
大規模多模態數據提取
該藍圖不只是停留在文本上,而是可以提取和提取各種數據類型,例如圖表、表格和信息圖。這些不同的模式通過 NVIDIA NIM (在 NVIDIA GPU 上優化的先進模型)處理,使組織能夠從各種企業文檔中獲取見解。
利用使用 NIM 構建的全新 NeMo Retriever 提取、嵌入和重排序微服務,基準測試表明多模態數據提取的吞吐量提高了 15 倍。這加快了端到端檢索工作流程,并使企業能夠不斷從最新信息中提取信息,以用于實時決策 (圖 1)。

要求:每秒頁面數,根據公開可用的 PDF 數據集 (包括文本、圖表和表格) 進行評估。NIM On 包含以下 NeMo Retriever 微服務:nv-yolox-structured-image-v1、nemoretriever-page-elements-v1、nemoretriever-graphic-elements-v1、nemoretriever-table-structure-v1、PaddleOCR、nv-llama3.2-embedqa-1b-v2 (與作為 OSS 替代方案的 NIM Off 相比) ;HW:1x NVIDIA H100
為了進一步提高檢索性能,該藍圖采用了 NeMo Retriever parse,這是一種基于 VLM 的高級 OCR 推理微服務,用于提取文本和表格。此微服務利用專門構建的自回歸 VLM 來理解和保留文本和表格的語義結構,從而優化下游檢索的內容。該 NIM 微服務專為從圖像中轉錄文檔而設計,可使用 Commercial RADIO (C-RADIO) 進行視覺特征提取和 mBART 進行文本生成。
此外,它還可以識別文本區域的邊界框,對頁面構件 (例如標題、段落和描述) 進行分類,并以 markdown 格式輸出結構化文本。這種方法同時保留了空間布局和語義結構,使轉錄更加井然有序和上下文感知,最終增強檢索能力。
該藍圖還利用了出色的 NeMo Retriever 嵌入和重排序微服務 ,與標準 FP16 加速相比,可提供 3 倍的嵌入性能和 1.6 倍的重排序吞吐量(圖 2)。這一改進使開發者能夠更高效地處理更大的數據集,從而構建 AI 驅動的搜索和檢索系統。
例如,客戶支持聊天機器人可以從數百萬支持文檔中快速提供最準確的故障排除指南,實時提供精確的答案,減少客戶等待時間并提高解決效率。

要求:左側圖表:1xH100 SXM;passage token 長度:512,batch size:64,并發客戶端請求:5;NIM Off 是 OSS 替代方案:FP16,而 NIM On 包括 NeMo Retriever 嵌入 NIM:FP8。右側圖表:1xH100 SXM;passage token 長度:512,batch size:40,并發客戶端請求:5;NIM Off 是 OSS 替代方案:FP16,而 NIM On 包括 NeMo Retriever 重排序 NIM:FP8
檢索更快、更準確
提取數據后,需要高效地對其進行索引和存儲,以便快速檢索。適用于 RAG 的 AI Blueprint 使用 NVIDIA cuVS 加速了這一過程,以創建可擴展的索引,從而快速將大型數據集編入索引,同時將延遲降至最低。該藍圖采用混合搜索策略,將基于關鍵字的傳統 (sparse) 搜索與最近鄰 (dense) 向量搜索相結合,進一步優化了檢索性能。無論數據類型如何,這種混合方法都能確保精確、高速的信息檢索。
此外,NeMo Retriever 還通過動態長度和長上下文支持提高了存儲效率, 將存儲需求降低了 35 倍 。這不僅可以降低運營成本,還可以保持檢索速度,即使在處理大量數據時也是如此。通過利用 GPU 加速索引,開發者可以體驗到索引吞吐量提升高達 7 倍,從而提高可擴展性、實時檢索和更負責任的 AI 應用 (圖 3)。

CPU 索引硬件 – 第五代 Intel Xeon (192vCPU) ;GPU 索引硬件 – 8xL4;Embedding (nv-embedqa-e5-v5) ;段大小 – 240K 向量 (1024 Dim, fp32) ;索引 – CAGRA (GPU), HNSW (CPU) ;目標召回 – 98%
該藍圖還提供了更高的準確性,通過 NeMo Retriever 多模態提取微服務將錯誤答案減少了 50%(圖 4)。這意味著開發者可以構建更可靠的系統,即使在數據擴展的情況下,也能實時提供一致、相關的結果。

回顧@5。NeMo 檢索器提取 (NIM 開啟) :nemoretriever-page-elements-v2, nemoretriever-table-structure-v1, nemoretriever-graphic-elements-v1, paddle-ocr 與開源替代方案 (NIM 關閉) 的比較:HW – 1x H100
該藍圖認識到每個企業都有自己獨特的數據、專有術語和領域知識,因此提供了一條定制路徑。借助 NVIDIA NeMo 微服務,開發者可以構建 數據飛輪 來微調模型,以滿足特定的業務需求。這種自定義微調可創建反饋循環,提高特定領域查詢的準確性,并確保檢索系統根據企業的獨特需求進行定制。
高級企業功能
適用于 RAG 的 AI Blueprint 不僅僅關注速度和可擴展性。它還為需要管理復雜工作流和支持全球運營的企業提供關鍵功能。
對于滿足多元化全球受眾需求的組織,該藍圖支持使用 NeMo Retriever 微服務 進行多語種和跨語言檢索,從而更輕松地為不同地區和語言的客戶提供服務。
現代 AI 系統的一個關鍵方面是能夠隨著時間的推移維護上下文。該藍圖還支持多輪交互,并保留跨多個會話的上下文,從而提供無縫的對話體驗。這種能力對于創建與用戶自然交互的智能虛擬助理和 chatbots 至關重要。
現在,該藍圖中內置了監控和可觀察性以及遙測工具,可幫助企業跟蹤使用情況、檢測問題和優化性能,這一切對于企業級部署至關重要。它通過 NVIDIA NeMo Guardrails 微服務 提供 reflection 等功能,以提高 RAG 準確性,并通過 guardrails 使對話與負責任的 AI 指南保持一致,這些功能都是當今監管環境中的重要功能。
最后,該藍圖與兼容 OpenAI 的 API 輕松集成,為熟悉基于 LLM 的工作流的現有團隊簡化了集成流程。其可分解架構使開發者能夠僅采用所需的組件,同時根據需要添加新功能或自定義現有功能。NVIDIA 還打包了一個示例用戶界面,以展示如何在現實環境中實施系統,從而進一步加速實現價值。
通過提供這些先進的功能,客戶可以構建自己的企業級 RAG 工作流,并實現行業領先的性能、準確性和成本效益。
借助 RAG 革新企業和數據平臺
包括 Accenture,?Cohesity,?DataStax,?DDN,?Dell,?Deloitte,?HPE,?IBM,?NetApp,?Nutanix,?PureStorage,?SAP,?Siemens和 Teradata?在內的領先 NVIDIA 合作伙伴已經在采用適用于 RAG 和 NeMo Retriever 微服務的 AI Blueprint,以安全地將自定義模型連接到各種大型數據源,使其系統和客戶能夠訪問更豐富、更相關的信息。
- Accenture 已將 NeMo Retriever 集成到 AI Refinery (AIR) 平臺,提高了營銷團隊在活動創建和管理方面的效率。這種集成將活動開發時間從幾天縮短到幾分鐘,同時為用戶提供了一個可擴展的平臺,確保低延遲和較短的學習曲線,以實現無縫采用。
- DataStax 已集成用于高性能推理的 NVIDIA NIM、用于模型定制的 NeMo,以及用于多模態數據提取和高精度信息檢索的 NeMo Retriever 。這支持從 PDF 等非結構化文件中提取數據,并在 Astra DB 向量存儲 中生成嵌入。通過將 NeMo Retriever 功能直接集成到 DataStax 平臺和 Astra DB 中, Wikimedia 在短短三天內為 Wikipedia 添加了語義搜索功能 ,比之前基于 GPU 的解決方案減少了 90% 的工作時間,速度提高了 10 倍。
- DDN Infinia 通過無縫、一鍵式部署高效的問答 RAG 工作流,正在徹底改變 AI 賦能的數據智能。通過集成 NeMo Retriever,DDN Infinia 使汽車行業的 DDN 客戶能夠以比基于云的傳統嵌入服務快 20 倍的速度自動回答問題。這一突破可加速向量嵌入生成和索引,同時將服務成本降低高達 80%,從而提供無與倫比的效率。因此,TCO 和運營績效得到了顯著改善,使 AI 驅動的決策制定更容易實現且更具成本效益。
- Deloitte 用 NeMo Retriever 提取和嵌入微服務,使用戶能夠提取各種非結構化文檔,并將其轉換為可搜索的高價值知識庫。他們的文檔處理時間提高了 35%,平均查詢響應時間提高了 8 倍。
- Cohesity 將 NeMo Retriever 集成到其 Cohesity Gaia 解決方案中,使大型制造客戶能夠利用其龐大的研究數據庫 (數千篇 PDF 格式的研究論文) ,并在幾分鐘內快速找到相關答案。事實證明,這非常有價值,可以節省以前用于搜索正確信息的時間,從而顯著加快研究和發現的速度。
- VAST 已無縫集成 NVIDIA LLM 和 NeMo Retriever 嵌入,并將 NIM 微服務重新排序到其統一數據平臺中,從而提高檢索準確性和模型推理。這種集成為 VAST InsightEngine 提供動力支持,可優化 AI 部署、提高響應相關性,并充分發揮生成式 AI 應用的潛力。借助 VAST InsightEngine,國家冰球聯盟可以解鎖超過 550,000 小時的歷史游戲片段。這種合作支持贊助分析,幫助視頻制作人快速創建廣播片段,并增強個性化的粉絲內容。
- WEKA WARRP 集成了 NeMo Retriever、 NVIDIA Triton 和 NVIDIA TensorRT ,以優化其 RAG 架構,加速多模態數據提取 (文本、音頻、圖像),提高檢索準確性,并實現大規模動態數據管理。通過這種集成,WEKA 可以為企業級代理群工作負載處理數億個并發代理。
開始使用由 NVIDIA NeMo Retriever 提供支持的 RAG,讓您的企業面向未來
AI 領域正在迅速發展。未能采用智能檢索的企業可能會落后。適用于 RAG 的 NVIDIA AI Blueprint 不僅僅是一次漸進式更新,而是向可擴展、多模態和高性能檢索的根本性轉變,這些檢索可為面向未來的企業 AI 策略提供支持。它可以按原樣使用,也可以與其他 NVIDIA Blueprint (例如 數字人藍圖 或 AI 助手藍圖 ) 結合使用,使組織能夠構建更復雜的解決方案。
在 API Catalog 上探索 NeMo Retriever 微服務 ,以開發企業就緒型信息檢索系統,從大量多模態數據中生成上下文感知響應。NeMo Retriever 微服務現已在 AWS SageMaker 、 Google Cloud Provider GKE 和 Azure Marketplace 上推出。
準備好進行企業部署了嗎? 申請 NVIDIA AI Enterprise 90 天免費試用 ,開啟生產就緒型 AI 驅動的檢索的下一個時代。
?