Cherie Wang – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 12 Mar 2025 05:43:42 +0000 zh-CN hourly 1 196178272 使用重排序微服務提升信息檢索準確性和降低成本 http://www.open-lab.net/zh-cn/blog/how-using-a-reranking-microservice-can-improve-accuracy-and-costs-of-information-retrieval/ Thu, 06 Mar 2025 05:36:53 +0000 http://www.open-lab.net/zh-cn/blog/?p=13131 Continued]]> 需要高性能信息檢索的應用涉及各個領域,包括搜索引擎、知識管理系統、AI 代理和 AI 助手。這些系統需要準確且計算高效的檢索流程,以提供精確的見解、增強用戶體驗并保持可擴展性。檢索增強生成 (RAG) 用于豐富結果,但其有效性從根本上取決于底層檢索機制的精度。 基于 RAG 的系統的運營成本由兩個主要因素驅動:計算資源和檢索精度欠佳導致的不準確成本。應對這些挑戰需要在不影響性能的情況下優化檢索工作流。重新排序模型有助于提高檢索準確性并降低總體支出。然而,盡管有可能對模型進行重新排序,但由于擔心信息檢索工作流程會增加復雜性和感知到的邊際收益,這些模型一直未得到充分利用。 在本文中,我們公布了 NVIDIA NeMo Retriever 重排序模型的重大性能進步,展示了它如何重新定義計算相關性得分在現代流程中的作用。通過詳細的基準測試,我們將重點介紹成本 – 性能權衡,

Source

]]>
13131
NVIDIA NIM 1.4 現已部署可用,推理速度提升 2.4 倍 http://www.open-lab.net/zh-cn/blog/nvidia-nim-1-4-ready-to-deploy-with-2-4x-faster-inference/ Fri, 15 Nov 2024 07:01:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=12026 Continued]]> 隨著 生成式 AI 重塑各行各業,對可立即部署的高性能推理的需求也在不斷增長。 NVIDIA NIM 為 AI 模型推理提供生產就緒型微服務容器,不斷提高企業級生成式 AI 性能。即將推出的 NIM 版本 1.4 定于 12 月初發布,開箱即用的請求性能可提升高達 2.4 倍,并提供相同的單命令部署體驗。 NIM 的核心是多個 LLM 推理引擎,包括 NVIDIA TensorRT-LLM ,可實現光速推理性能。在每個版本中,NIM 都整合了來自這些引擎的內核優化、內存管理和調度方面的最新進展,以提高性能。 在 NIM 1.4 中,內核效率、運行時啟發式算法和內存分配有了顯著改進,推理速度提高了 2.4 倍。這些進步對于依賴快速響應和高吞吐量的生成式 AI 應用的企業至關重要。 NIM 還受益于全棧加速計算的持續更新,可提升計算堆棧各個級別的性能和效率。

Source

]]>
12026
評估適用于企業級 RAG 的 Retriever http://www.open-lab.net/zh-cn/blog/evaluating-retriever-for-enterprise-grade-rag/ Fri, 23 Feb 2024 06:58:35 +0000 http://www.open-lab.net/zh-cn/blog/?p=9055 Continued]]> 關于設計和評估的對話 檢索增強生成(RAG) 系統是一個漫長而多方面的討論。即使我們單獨研究檢索,開發者也會有選擇地使用許多技術,例如查詢分解、重寫、構建軟過濾器等,以提高其 RAG 流程的準確性。雖然技術因系統而異,但嵌入模型通常是 RAG 中每個檢索流程的核心。 嵌入,尤其是密集嵌入,用于表達文本的語義結構。由于 RAG 中的所有檢索器都有一個關鍵的必須求解,以理解原始文本的語義,因此擁有系統的評估過程來選擇正確的過程至關重要。 我們展示了如何使用流行的庫,如scikit-learn和XGBoost,將聯邦線性模型、k-means 聚類、非線性 SVM、隨機森林和 XGBoost 應用于協作學習。 在本文中,您將學習: 如果您不熟悉檢索器在 RAG 中的作用,請查看 這篇博文介紹了如何使用 NVIDIA Retrieval QA Embedding 模型構建企業…

Source

]]>
9055
人人超碰97caoporen国产