每年都會生成數萬億個 PDF 文件,每個文件可能由多個頁面組成,其中充滿了各種內容類型,包括文本、圖像、圖表和表格。這筆數據財富只能在人類能夠閱讀和理解的情況下才能快速使用。
但是,借助生成式 AI 和檢索增強生成(RAG),這些未開發的數據可以用于發現業務見解,從而幫助員工提高工作效率并降低成本。
想象一下,能夠準確地提取海量企業數據中包含的知識,有效地與數據對話,從而快速使您的數字人成為任何主題的專家。這反過來又使您的員工能夠更快地做出更明智的決策。
在本文中,我們將展示多模態 PDF 數據提取藍圖如何結合 NVIDIA NeMo Retriever 和 NVIDIA NIM 微服務,以及用于實現此目的的參考代碼和文檔。
應對復雜信息提取的挑戰。
PDF 是內容豐富的文檔,可存儲跨模式表達的精細信息,使其更加簡潔和易于理解。例如,PDF 可能包含用于傳達復雜信息的文本、表格、圖表、圖形和圖表的混合體。從信息檢索的角度來看,每種模式都存在獨特的挑戰。
要構建應對這些挑戰的流程,您可以使用以下 NVIDIA NIM 微服務:
- PDF Ingestion NIM microservices
- nv-yolox-structured-image:一種經過微調的對象檢測模型,用于檢測 PDF 中的圖表、plots 和表格。
- Deplot:用于生成圖表說明的熱門社區 pix2struct 模型。
- 緩存:用于識別圖形中各種元素的對象檢測模型。
- PaddleOCR:一個光學字符識別(OCR)模型,用于從表格和圖表中轉錄文本。
- NVIDIA NeMo Retriever NIM microservices
- NV-EmbedQA-E5-V5:一款熱門的社區基礎嵌入模型,針對文本問答檢索進行了優化。
- NV-RerankQA-Mistral4b-v3:一款熱門社區基礎模型,經過微調,可進行文本重排名,從而實現高精度問答。
有關更多信息,請參閱 An Easy Introduction to Multimodal Retrieval-Augmented Generation。
PDF 上 RAG 的多模態檢索藍圖
在 PDF 上構建多模態檢索工作流包含兩個關鍵步驟:
- 使用多模態數據提取文檔。
- 根據用戶查詢檢索相關上下文。
提取包含多模態數據的文檔
這是工作流程的前一半,它可以有效地提取信息并使其可供檢索。這涉及以下步驟:
首先,解析 PDF,以分離出模式(文本、圖像、圖表、表格、繪圖和其他圖表)。文本被解析為結構化的 JSON,而頁面被解析為圖像,每個頁面在文檔中都被渲染為圖像。
接下來,從圖表和表格中提取文本元數據。使用NIM微服務從圖像中準確提取信息:
- nv-yolox-structured-image:識別 PDF 中的圖表。?
- DePlot、CACHED 和 PaddleOCR:從圖表中提取信息。DePlot 轉錄圖形,CACHED 與 PaddleOCR 提取圖形的其他重要元數據。??
- PaddleOCR:從表格中提取文本信息,保持表格的讀取順序。
最后,過濾提取的信息,分塊并創建 VectorStore。提取的信息經過過濾以避免重復,并被分解成適當的分塊。然后,NeMo Retriever 嵌入 NIM 微服務將這些分塊轉換為嵌入,并將其存儲在 VectorStore 中。
根據用戶查詢檢索相關上下文
當用戶提交查詢時,系統會從龐大存儲庫中的相關文檔中檢索信息。具體操作如下:
- NeMo Retriever 嵌入 NIM 微服務嵌入用戶查詢,該查詢用于從 VectorStore 中使用向量相似度搜索檢索最相關的數據塊。
- NeMo Retriever 重新排序的 NIM 微服務充當細化層,仔細評估結果并重新排序,以確保使用最準確、最有用的數據塊來響應查詢。
- 借助最相關的信息,LLM NIM 微服務可生成明智、準確且與上下文相關的響應。
這個工作流程利用從提取的文檔中構建的綜合知識庫,使用戶能夠訪問精準且相關的信息,為他們的查詢提供寶貴的見解和答案

構建經濟高效的企業級 RAG 工作流程
以下是使用 NIM 微服務創建多模態文檔 RAG 流程的優勢:成本和穩定性。
成本有兩個考慮因素:
- 上市時間:NVIDIA NIM 微服務旨在提供易于使用且可擴展的模型推理解決方案,使企業應用開發者能夠專注于處理其應用程序邏輯,而不必花費大量時間來構建和擴展基礎架構。NIM 微服務是容器化解決方案,附帶行業標準 API 和 Helm Chart 進行擴展。
- 部署成本:NIM 使用全套 NVIDIA AI Enterprise 軟件來加速模型推理,最大限度地提高企業從模型中獲得的價值,進而降低大規模部署流程的成本。圖 2 展示了在測試這種提取和提取流程時,在準確性和吞吐量方面取得的改進。

使用 NIM-On:nv-yolox-structured-image-v1、DePlot、CACHED、PaddleOCR、nv-embedqa-e5-v5、nv-rerankqa-mistral-4b-v3 與 2xA100 GPU 上的 NIM-Off:開源替代方案相比,對公開可用的 PDF 數據集(包括文本、圖表和表格)評估的多模態 PDF 檢索準確性。
每秒多模態 PDF 吞吐量頁面數,以由文本、圖表和表格組成的公開可用的 PDF 數據集進行評估,并使用 NIM-On:nv-yolox-structured-image-v1、DePlot、CACHED、PaddleOCR、nv-embedqa-e5-v5、nv-rerankqa-mistral-4b-v3(與在多線程 CPU 上運行的 NIM-Off:開源替代方案相比)。
NIM 微服務是 NVIDIA AI Enterprise 許可證的一部分,該許可證提供 API 穩定性、安全補丁、質量保證,并支持企業在 AI 上運行業務從原型平穩過渡到生產(圖 3)。

在企業數據中發現智能
為了使企業能夠充分利用其海量數據,NVIDIA 與數據和存儲平臺合作伙伴合作,包括 Box、Cloudera、Cohesity、DataStax、Dropbox 和 Nexla。
Cloudera
Cloudera 企業 AI 產品副總裁 Priyank Patel 表示:“通過將 NVIDIA NIM 微服務集成到 Cloudera AI 推理服務(現已作為 Tech Preview 提供)中,公司可以將在 Cloudera 中管理的 EB 級私有數據與為 RAG 用例提供支持的高性能模型相匹配。
無論企業選擇在本地還是云端運行 AI,我們都能與 NVIDIA 合作,為其提供出色的 AI 平臺功能。
Cohesity
“為了充分發揮其專有數據在 AI 應用中的潛力,企業必須高效處理和分析存儲在備份和存檔中的大量信息,”Cohesity 數據和 AI 首席技術官 Greg Statton 說。
“NeMo Retriever 多模態 PDF 工作流程具有為客戶的數據備份和存檔添加生成式 AI 智能的潛力,使他們能夠快速準確地從數百萬份文件中提取寶貴見解。通過將此工作流程與 Cohesity Gaia 結合起來,我們的客戶可以專注于創新和戰略決策,而無需應對復雜的數據集成挑戰。
DataStax
DataStax 首席產品官 Ed Anuff 表示:“要從專有企業數據中為 AI 應用釋放價值,就需要從數百萬結構化和非結構化文檔中提取知識。”
我們正在與 NVIDIA 合作,利用加速計算的速度和規模,以及用于 PDF 的 NeMo Retriever 數據提取工作流,以及 DataStax AstraDB 和 DataStax 超融合數據庫,使客戶能夠專注于創新,而不是面臨復雜的數據集成挑戰。
Dropbox
Dropbox 總經理 Manik Singh 表示:“擴展到表格和圖像之外的文本檢索,可以讓客戶在其云內容中獲得見解。”
“我們正在評估 NeMo Retriever 多模態 PDF 提取工作流程,以探索引入新的生成式 AI 能力來幫助我們的客戶發現這些寶貴的見解。”
Nexla
Nexla 首席執行官兼聯合創始人 Saket Saurabh 表示:“將生成式 AI 演示擴展到生產級解決方案對企業來說是一項巨大的挑戰。我們的合作可以通過將 NVIDIA NIM 集成到 Nexla 的無代碼/低代碼平臺來解決這一問題,該平臺適用于文檔 ETL,并且有可能跨包括 Sharepoint、SFTP、S3、Network Drives、Dropbox 等企業系統中的數百萬文檔擴展多模態提取。”
Saurabh 表示:“Nexla 將在云和私有數據中心環境中支持 NIM,涵蓋嵌入生成、模型執行、推理和檢索解決方案等全套功能,以幫助客戶加速其 AI 路線圖。”
開始使用
通過 NVIDIA API 目錄中的交互式演示體驗多模態 PDF 提取工作流程。申請搶先體驗,使用開源代碼、自定義說明和 Helm 圖表進行部署,預覽這項工作流程藍圖。
報名參加 NVIDIA 和 LlamaIndex 開發者競賽,與全球各地的開發者一起構建 RAG 應用程序,提升技能,并競逐豐厚的獎品。
?