Cherie Wang – NVIDIA 技術博客

使用重排序微服務提升信息檢索準確性和降低成本

Thu, 06 Mar 2025 05:36:53 +0000

需要高性能信息檢索的應用涉及各個領域，包括搜索引擎、知識管理系統、AI 代理和 AI 助手。這些系統需要準確且計算高效的檢索流程，以提供精確的見解、增強用戶體驗并保持可擴展性。檢索增強生成 (RAG) 用于豐富結果，但其有效性從根本上取決于底層檢索機制的精度。基于 RAG 的系統的運營成本由兩個主要因素驅動：計算資源和檢索精度欠佳導致的不準確成本。應對這些挑戰需要在不影響性能的情況下優化檢索工作流。重新排序模型有助于提高檢索準確性并降低總體支出。然而，盡管有可能對模型進行重新排序，但由于擔心信息檢索工作流程會增加復雜性和感知到的邊際收益，這些模型一直未得到充分利用。在本文中，我們公布了 NVIDIA NeMo Retriever 重排序模型的重大性能進步，展示了它如何重新定義計算相關性得分在現代流程中的作用。通過詳細的基準測試，我們將重點介紹成本 – 性能權衡，

Source

]]>

NVIDIA NIM 1.4 現已部署可用，推理速度提升 2.4 倍

Fri, 15 Nov 2024 07:01:07 +0000

隨著生成式 AI 重塑各行各業，對可立即部署的高性能推理的需求也在不斷增長。 NVIDIA NIM 為 AI 模型推理提供生產就緒型微服務容器，不斷提高企業級生成式 AI 性能。即將推出的 NIM 版本 1.4 定于 12 月初發布，開箱即用的請求性能可提升高達 2.4 倍，并提供相同的單命令部署體驗。 NIM 的核心是多個 LLM 推理引擎，包括 NVIDIA TensorRT-LLM ，可實現光速推理性能。在每個版本中，NIM 都整合了來自這些引擎的內核優化、內存管理和調度方面的最新進展，以提高性能。在 NIM 1.4 中，內核效率、運行時啟發式算法和內存分配有了顯著改進，推理速度提高了 2.4 倍。這些進步對于依賴快速響應和高吞吐量的生成式 AI 應用的企業至關重要。 NIM 還受益于全棧加速計算的持續更新，可提升計算堆棧各個級別的性能和效率。

Source

]]>

評估適用于企業級 RAG 的 Retriever

Fri, 23 Feb 2024 06:58:35 +0000

關于設計和評估的對話檢索增強生成(RAG) 系統是一個漫長而多方面的討論。即使我們單獨研究檢索，開發者也會有選擇地使用許多技術，例如查詢分解、重寫、構建軟過濾器等，以提高其 RAG 流程的準確性。雖然技術因系統而異，但嵌入模型通常是 RAG 中每個檢索流程的核心。嵌入，尤其是密集嵌入，用于表達文本的語義結構。由于 RAG 中的所有檢索器都有一個關鍵的必須求解，以理解原始文本的語義，因此擁有系統的評估過程來選擇正確的過程至關重要。我們展示了如何使用流行的庫，如scikit-learn和XGBoost，將聯邦線性模型、k-means 聚類、非線性 SVM、隨機森林和 XGBoost 應用于協作學習。在本文中，您將學習：如果您不熟悉檢索器在 RAG 中的作用，請查看這篇博文介紹了如何使用 NVIDIA Retrieval QA Embedding 模型構建企業…

Source

]]>