Sunil Patel – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 08 Jan 2025 05:53:00 +0000
zh-CN
hourly
1
196178272 -
對大型語言模型驅動的知識圖譜的洞察、技術和評估
http://www.open-lab.net/zh-cn/blog/insights-techniques-and-evaluation-for-llm-driven-knowledge-graphs/
Mon, 16 Dec 2024 05:22:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=12528
Continued]]>
數據是現代企業的生命線,推動著從創新到戰略決策的方方面面。然而,隨著企業組織積累了越來越多的信息 (從技術文檔到內部溝通),他們面臨著艱巨的挑戰:如何從海量非結構化數據中提取有意義的見解和可行結構。 檢索增強型生成 (Retrieval-augmented generation, RAG) 已成為一種熱門解決方案,可通過集成相關企業數據來增強 AI 生成的響應。傳統的 RAG 方法雖然對簡單查詢有效,但在解決需要推理和交叉參考的復雜多層問題時往往有所欠缺。 問題在于:簡單的向量搜索可以檢索數據,但通常無法提供復雜推理所需的細致入微的上下文。即使是多 查詢 RAG 、 查詢增強 和 混合檢索 等高級技術也很難處理需要中間推理步驟或跨數據類型復雜連接的任務。 本文將探討如何將 大語言模型 (LLMs) 的強大功能與 知識圖形 相結合,應對這些挑戰,
Source
]]>
12528
-
強大的場景文本檢測和識別:簡介
http://www.open-lab.net/zh-cn/blog/robust-scene-text-detection-and-recognition-introduction/
Tue, 16 Jan 2024 06:53:07 +0000
http://www.open-lab.net/zh-cn/blog/?p=8774
Continued]]>
識別和識別自然場景和圖像中的文本對于視頻標題文本識別、檢測車載攝像頭的標牌、信息檢索、場景理解、車牌識別以及識別產品文本等用例變得非常重要。 大多數這些用例都需要近乎實時的性能。常用的文本提取技術包括使用光學字符識別 (OCR) 系統。但是,大多數免費的商用 OCR 系統都經過訓練,可以識別文檔中的文本。在識別自然場景或帶字幕的視頻(如圖像透視、反射、模糊等)中的文本方面存在許多挑戰。 在本系列的下一篇文章中,強大的場景文本檢測和識別:實施,討論了如何使用先進的深度學習算法和技術(例如增量學習和微調)實現 STDR 工作流。第三篇博文強大的場景文本檢測和識別:推理優化,涵蓋了為您的 STDR 工作流提供生產就緒型優化和性能。 通常,文本提取過程涉及以下步驟: 由于文本外觀的可變性(例如曲率、方向和失真),識別自然場景圖像中的不規則文本可能具有挑戰性。
Source
]]>
8774
-
強大的場景文本檢測和識別:實施
http://www.open-lab.net/zh-cn/blog/robust-scene-text-detection-and-recognition-implementation/
Tue, 16 Jan 2024 06:46:22 +0000
http://www.open-lab.net/zh-cn/blog/?p=8764
Continued]]>
要使場景文本檢測和識別適用于不規則文本或特定用例,您必須完全控制模型,以便根據用例和數據集執行增量學習或微調。請記住,此工作流是場景理解、基于 AI 的檢查和文檔處理平臺的主要構建塊。它應該準確且低延遲。 在本系列的第一篇文章中,強大的場景文本檢測和識別:簡介 討論了穩健的場景文本檢測和識別(STDR)在各行各業中的重要性以及所面臨的挑戰。第三篇博文 強大的場景文本檢測和識別:推理優化 涵蓋了 STDR 工作流的生產就緒型優化和性能。 在這篇博文中,我們決定采用高度精確的先進深度學習模型。為了確保準確性并維持較低的端到端延遲,我們采用了以下工具和框架來執行模型推理優化:NVIDIA TensorRT 和 ONNX Runtime。為了確保標準模型能夠被部署和執行,同時保證具有可擴展性的高性能推理,我們還選擇使用了 NVIDIA Triton 推理服務器。 為了訓練模型,
Source
]]>
8764
-
強大的場景文本檢測和識別:推理優化
http://www.open-lab.net/zh-cn/blog/robust-scene-text-detection-and-recognition-inference-optimization/
Tue, 16 Jan 2024 06:41:55 +0000
http://www.open-lab.net/zh-cn/blog/?p=8759
Continued]]>
在本文中,我們將深入探討推理優化過程,以在推理階段提高機器學習模型的性能和效率。我們將討論所采用的技術,例如推理計算圖形簡化、量化和降低精度。我們還展示了場景文本檢測和識別模型的基準測試結果,其中比較了 ONNX 運行時 和 NVIDIA TensorRT 使用 NVIDIA Triton 推理服務器。 最后,我們總結了優化深度學習模型對于推理的重要性,以及使用端到端 NVIDIA 軟件解決方案的優勢,NVIDIA AI Enterprise 用于構建高效可靠的場景文本 OCR 系統。 在本系列的第一篇文章中,強大的場景文本檢測和識別:簡介 討論了穩健場景文本檢測和識別(STDR)在各行各業中的重要性以及所面臨的挑戰。第二篇博文 強大的場景文本檢測和識別:實施 并討論了如何使用先進的深度學習算法和技術(如增量學習和微調)實現 STDR 工作流。
Source
]]>
8759
-
使用 NVIDIA DeepStream 對特定幀區域應用推理
http://www.open-lab.net/zh-cn/blog/applying-inference-over-specific-frame-regions-with-nvidia-deepstream/
Wed, 27 Jul 2022 06:13:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4698
Continued]]>
在高分辨率輸入中檢測物體是計算機視覺中的一個眾所周知的問題。當感興趣的是框架的某個區域時,不需要對整個框架進行推理。解決這個問題有兩種方法: 在許多方面,第一種方法是困難的。訓練輸入量大的模型通常需要更大的主干,使整個模型更笨重。訓練或部署這樣的模型也需要更多的計算資源。較大的模型被認為不適合在較小的設備上部署邊緣。 第二種方法,將整個圖像劃分為塊,并對每個塊應用較小的模型,具有明顯的優勢。使用較小的模型,因此在訓練和推理中需要較小的計算能力。將模型應用于高分辨率輸入不需要再培訓。較小的模型也被認為有利于邊緣部署。 在這篇文章中,我們將討論如何 NVIDIA DeepStream 可以幫助將較小的模型應用于高分辨率輸入,以檢測特定的幀區域。 視頻監控系統用于解決各種問題,例如識別行人、車輛和汽車。如今, 4K 和 8K 攝像機用于捕捉場景細節。
Source
]]>
4698
人人超碰97caoporen国产