Annie Surla – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 12 Mar 2025 05:43:42 +0000
zh-CN
hourly
1
196178272 -
使用重排序微服務提升信息檢索準確性和降低成本
http://www.open-lab.net/zh-cn/blog/how-using-a-reranking-microservice-can-improve-accuracy-and-costs-of-information-retrieval/
Thu, 06 Mar 2025 05:36:53 +0000
http://www.open-lab.net/zh-cn/blog/?p=13131
Continued]]>
需要高性能信息檢索的應用涉及各個領域,包括搜索引擎、知識管理系統、AI 代理和 AI 助手。這些系統需要準確且計算高效的檢索流程,以提供精確的見解、增強用戶體驗并保持可擴展性。檢索增強生成 (RAG) 用于豐富結果,但其有效性從根本上取決于底層檢索機制的精度。 基于 RAG 的系統的運營成本由兩個主要因素驅動:計算資源和檢索精度欠佳導致的不準確成本。應對這些挑戰需要在不影響性能的情況下優化檢索工作流。重新排序模型有助于提高檢索準確性并降低總體支出。然而,盡管有可能對模型進行重新排序,但由于擔心信息檢索工作流程會增加復雜性和感知到的邊際收益,這些模型一直未得到充分利用。 在本文中,我們公布了 NVIDIA NeMo Retriever 重排序模型的重大性能進步,展示了它如何重新定義計算相關性得分在現代流程中的作用。通過詳細的基準測試,我們將重點介紹成本 – 性能權衡,
Source
]]>
13131
-
視頻和音頻多模態檢索增強生成入門簡介
http://www.open-lab.net/zh-cn/blog/an-easy-introduction-to-multimodal-retrieval-augmented-generation-for-video-and-audio/
Mon, 16 Dec 2024 09:41:49 +0000
http://www.open-lab.net/zh-cn/blog/?p=12607
Continued]]>
構建多模態檢索增強生成 (RAG) 系統極具挑戰性 。困難在于捕獲和索引來自多種模式的信息,包括文本、圖像、表格、音頻、視頻等。在上一篇博文《 多模態檢索增強型生成的簡單介紹 》中,我們討論了如何處理文本和圖像。本文將對話擴展到音頻和視頻。具體來說,我們將探討如何構建多模 odal RAG pipeline 來搜索視頻中的信息。 基于第一條原則,我們可以說,構建跨多個模式的 RAG 工作流有三種方法,詳見下文和圖 1。 構建跨多個模態的 RAG 工作流的第一種方法是使用通用嵌入空間。這種方法依賴于單個模型來投射存儲在同一嵌入空間中不同模式下的信息表示。使用具有圖像和文本編碼器的 CLIP 等模型屬于此類別。使用這種方法的好處是降低架構復雜性。根據用于訓練模型的數據的多樣性,還可以考慮適用用例的靈活性。 這種方法的缺點是,如果模型能夠處理兩個以上的模態,
Source
]]>
12607
-
LLM 模型合并入門指南
http://www.open-lab.net/zh-cn/blog/an-introduction-to-model-merging-for-llms/
Mon, 28 Oct 2024 05:30:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=11782
Continued]]>
自定義 大語言模型(LLM) 時,組織面臨的一個挑戰是需要運行多個實驗,而這些實驗只能產生一個有用的模型。雖然實驗成本通常較低,并且結果非常值得付出努力,但這個實驗過程確實涉及“浪費”資源,例如在未使用其產品的情況下花費的計算資產、專用的開發者時間等。 模型合并結合了多個自定義語言模型(LLM)的權重,提高了資源利用率,并為成功的模型增加了價值。這種方法提供了兩種關鍵解決方案。 本文將探討如何自定義模型、模型合并的工作原理、不同類型的模型合并,以及模型合并的迭代和發展方式。 本節簡要概述了模型如何進行自定義,以及如何利用此過程幫助直觀地了解模型合并。 請注意,為了直觀地理解模型合并,我們過度簡化了所討論的一些概念。建議您先熟悉自定義技術、Transformer 架構和單獨訓練,然后再深入了解模型合并。例如,請參閱 Mastering LLM Techniques:
Source
]]>
11782
-
借助 NVIDIA NIM 智能體藍圖構建企業級多模態文檔檢索工作流
http://www.open-lab.net/zh-cn/blog/build-an-enterprise-scale-multimodal-document-retrieval-pipeline-with-nvidia-nim-agent-blueprint/
Wed, 28 Aug 2024 06:57:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=11088
Continued]]>
每年都會生成數萬億個 PDF 文件,每個文件可能由多個頁面組成,其中充滿了各種內容類型,包括文本、圖像、圖表和表格。這筆數據財富只能在人類能夠閱讀和理解的情況下才能快速使用。 但是,借助生成式 AI 和檢索增強生成(RAG),這些未開發的數據可以用于發現業務見解,從而幫助員工提高工作效率并降低成本。 想象一下,能夠準確地提取海量企業數據中包含的知識,有效地與數據對話,從而快速使您的數字人成為任何主題的專家。這反過來又使您的員工能夠更快地做出更明智的決策。 在本文中,我們將展示多模態 PDF 數據提取藍圖如何結合 NVIDIA NeMo Retriever 和 NVIDIA NIM 微服務,以及用于實現此目的的參考代碼和文檔。 PDF 是內容豐富的文檔,可存儲跨模式表達的精細信息,使其更加簡潔和易于理解。例如,PDF 可能包含用于傳達復雜信息的文本、表格、圖表、
Source
]]>
11088
-
多模態檢索增強生成的簡單介紹
http://www.open-lab.net/zh-cn/blog/an-easy-introduction-to-multimodal-retrieval-augmented-generation/
Wed, 20 Mar 2024 04:49:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=9316
Continued]]>
檢索增強生成 (RAG) 應用程序如果能夠處理各種數據類型,包括表格、圖形和圖表,而不僅僅是文本,其效用將會呈指數級增長。這就需要一個能夠通過一致的解釋文本、視覺和其他形式的信息來理解和生成響應的框架。 在本文中,我們將討論應對多種模式和方法以構建多模態 RAG 工作流所面臨的挑戰。為保持討論簡潔,我們只關注兩種模式,即圖像和文本。 企業 (非結構化) 數據通常分布在多種模式下,無論是充滿高分辨率圖像的文件夾,還是包含混合文本表格、圖表、圖形等的 PDF 文件。 在使用這種模式時,需要考慮兩個要點:每種模式都有自己的挑戰,以及如何跨模式管理信息? 以圖像為例 (圖 1)。對于左側的圖像,重點更多的是一般圖像,而不是微小的細節。只關注幾個關鍵點,如池邊、海洋、樹木和沙灘。 報告和文檔可能包含信息密集型圖像 (如圖表和圖表),
Source
]]>
9316
-
如何從大型語言模型中獲得更好的輸出
http://www.open-lab.net/zh-cn/blog/how-to-get-better-outputs-from-your-large-language-model/
Wed, 14 Jun 2023 05:19:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=7215
Continued]]>
大語言模型(LLM)因其前所未有的規模理解和處理人類語言的能力,在全球引發轟動,改變了我們與技術互動的方式。 經過大量文本語料庫的訓練, LLM 可以在沒有太多指導或訓練的情況下為各種應用程序操作和生成文本。但是,生成的輸出的質量在很大程度上取決于您給模型的指令,即提示。這對你來說意味著什么?如今,與模型交互是設計提示的藝術,而不是設計模型架構或訓練數據。 考慮到構建和培訓模型所需的專業知識和資源,處理 LLM 可能會付出代價。NVIDIA NeMo 提供了預訓練的語言模型,可以靈活地適應幾乎所有的語言處理任務,同時我們可以完全專注于從可用的 LLM 中獲得最佳輸出。 在本文中,我討論了一些可以充分利用 LLM 的方法。要了解更多關于如何開始使用 LLM 的信息,請參閱《大型語言模型介紹:提示工程和 P-Tuning》。 在我進入生成最佳輸出的策略之前,
Source
]]>
7215
-
大型語言模型簡介:提示工程和 P 調優
http://www.open-lab.net/zh-cn/blog/an-introduction-to-large-language-models-prompt-engineering-and-p-tuning/
Sun, 23 Apr 2023 04:54:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=6778
Continued]]>
ChatGPT 給人留下了深刻印象。用戶很樂意使用人工智能聊天機器人提問、寫詩、塑造互動角色、充當個人助理等等。大語言模型( LLM )為 ChatGPT 供電,這些模型就是本文的主題 在更仔細地考慮 LLM 之前,我們首先想確定語言模型的作用。語言模型給出了一個單詞在單詞序列中有效的概率分布。從本質上講,語言模型的工作是預測哪個詞最適合一個句子。圖 1 提供了一個示例。 雖然像 BERT 這樣的語言模型已經被有效地用于處理文本分類等許多下游任務,但已經觀察到,隨著這些模型規模的增加,某些額外的能力也會出現 這種規模的增加通常伴隨著以下三個維度的相應增加:參數的數量、訓練數據和訓練模型所需的計算資源。有關詳細信息,請參閱Emergent Abilities of Large Language Models. LLM 是一種深度學習模型,可以使用大型數據集識別、
Source
]]>
6778
人人超碰97caoporen国产