最佳實踐 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 12 Mar 2025 06:39:52 +0000
zh-CN
hourly
1
196178272 -
借助 NVIDIA DriveOS LLM SDK 簡化自動駕駛汽車應用的 LLM 部署
http://www.open-lab.net/zh-cn/blog/streamline-llm-deployment-for-autonomous-vehicle-applications-with-nvidia-driveos-llm-sdk/
Mon, 10 Mar 2025 06:57:15 +0000
http://www.open-lab.net/zh-cn/blog/?p=13098
Continued]]>
大語言模型 (LLMs) 在自然語言處理 (NLP) 中表現出非凡的泛化能力。它們廣泛應用于翻譯、數字助理、推薦系統、上下文分析、代碼生成、網絡安全等。汽車應用對基于 LLMs 的自動駕駛和座艙功能解決方案的需求與日俱增。在通常資源受限的汽車平臺上部署 LLMs 和 視覺語言模型 (VLMs) 已成為一項嚴峻的挑戰。 本文將介紹 NVIDIA DriveOS LLM SDK,該庫旨在優化自動駕駛汽車 DRIVE AGX 平臺 上先進 LLM 和 VLM 的推理。它是基于 NVIDIA TensorRT 推理引擎構建的輕量級工具包。它整合了針對 LLM 的特定優化,例如自定義注意力內核和量化技術,以便在汽車平臺上部署 LLM。 該工具包提供易于使用的 C++ 庫和示例代碼,用于導出、構建 TensorRT 引擎、執行推理,以及使用完整的端到端工作流對 LLM 進行基準測試。
Source
]]>
13098
-
借助 Databricks Pixels 2.0 和 MONAI 加速醫學影像 AI 運營
http://www.open-lab.net/zh-cn/blog/accelerate-medical-imaging-ai-operations-with-databricks-pixels-2-0-and-monai/
Fri, 28 Feb 2025 06:32:31 +0000
http://www.open-lab.net/zh-cn/blog/?p=13152
Continued]]>
根據世界衛生組織(WHO)的數據,全球每年都會進行 36 億次醫學影像檢查,以診斷、監測和治療各種疾病。大多數圖像都存儲在全球公認的標準 DICOM(Digital Imaging and Communications in Medicine)中。DICOM 格式的成像研究結合了非結構化圖像和結構化元數據。 數據倉庫等典型的數據管理系統無法適應非結構化數據類型。此外,數據湖無法對元數據進行分類和存儲,而元數據對于搜索、治理和這些影像檢查的可訪問性至關重要。Databricks Pixels 0.6 于 2021 年開發,通過提供可擴展的環境解決了許多此類挑戰,您可以從中提取、管理和編錄 Databricks Data Intelligence Platform 中的所有醫學影像數據。 現在,借助 Databricks Pixels 2.0 解決方案加速器,
Source
]]>
13152
-
NVIDIA RTX Mega Geometry 現已支持新的 Vulkan 示例程序
http://www.open-lab.net/zh-cn/blog/nvidia-rtx-mega-geometry-now-available-with-new-vulkan-samples/
Thu, 06 Feb 2025 04:23:27 +0000
http://www.open-lab.net/zh-cn/blog/?p=12866
Continued]]>
在過去 30 年里,計算機圖形領域的幾何細節呈指數級增長。為了渲染具有更高實例數量和三角形密度的高質量素材,NVIDIA 推出了 RTX Mega Geometry。RTX Mega Geometry 現已通過 NVIDIA RTX Kit 推出,這是一套渲染技術,可利用 AI 對游戲進行光線追蹤、渲染具有宏大幾何圖形的場景,以及創建具有逼真視覺效果的游戲角色。 作為此版本的一部分,新的 Vulkan 示例已提供給所有開發者。這些開源示例展示了如何使用三角形集群更快地構建加速結構、渲染大量動畫幾何圖形、具有流式傳輸細節級別(LoD)的路徑追蹤模型等。NVIDIA 還將發布兩個庫,幫助將幾何圖形處理到集群中。有關 RTX Mega Geometry 的更多信息,請參閱 GitHub 上的文檔。有關單個 Vulkan 示例的更多信息,請訪問每個存儲庫。 此示例介紹了集群,
Source
]]>
12866
-
使用 NVIDIA GeForce RTX 50 系列 GPU 實時渲染路徑追蹤頭發
http://www.open-lab.net/zh-cn/blog/render-path-traced-hair-in-real-time-with-nvidia-geforce-rtx-50-series-gpus/
Thu, 06 Feb 2025 04:14:54 +0000
http://www.open-lab.net/zh-cn/blog/?p=12860
Continued]]>
2018 年, NVIDIA RTX 引入了對光線追蹤三角形網格的硬件支持。但是,頭發和毛皮的光線追蹤仍然是一個計算密集型問題,一直難以進一步加速。那就是,直到現在。 NVIDIA GeForce 50 系列 GPUs 在加速毛發和毛皮光線追蹤方面取得了重大進步:硬件光線追蹤支持線性掃描球體 (LSS) 基元。這種新基元是向實時渲染高質量數字人邁出的一大步。逼真的人類渲染的應用領域與日俱增,包括 AI 虛擬形象、電影和游戲角色、圖形研究、高性能科學計算應用、合成數據生成等。 LSS 現已在 NVIDIA OptiX 和 NVAPI SDK 中提供。 RTX Character Rendering SDK 是 NVIDIA RTX Kit 的一部分,其中包含使用基于物理性質的著色模型的 LSS 的高級實時毛發示例。RTX Kit 是一套神經渲染技術,
Source
]]>
12860
-
適用于數據科學的 GPU 加速入門
http://www.open-lab.net/zh-cn/blog/get-started-with-gpu-acceleration-for-data-science/
Thu, 06 Feb 2025 04:11:52 +0000
http://www.open-lab.net/zh-cn/blog/?p=12857
Continued]]>
在數據科學領域,運營效率是處理日益復雜和大型數據集的關鍵。GPU 加速已成為現代工作流程的關鍵,可顯著提高性能。 RAPIDS 是由 NVIDIA 開發的一套開源庫和框架,旨在使用 GPU 以盡可能減少代碼更改來加速數據科學流程。RAPIDS 提供用于數據操作的 cuDF 、用于機器學習的 cuML 和用于圖形分析的 cuGraph 等工具,可實現與現有 Python 庫的無縫集成,使數據科學家更容易實現更快、更高效的處理。 本文分享了從 CPU 數據科學庫過渡到 GPU 加速工作流程的技巧,特別適合經驗豐富的數據科學家。 開始使用 RAPIDS 非常簡單,但它確實有幾個依賴項。推薦的方法是遵循官方的 RAPIDS 安裝指南 ,該指南提供了詳細的本地安裝說明。您有多種安裝框架的路徑:通過 pip install、Docker 鏡像,或通過 Conda 等環境。
Source
]]>
12857
-
使用 NVIDIA AI Workbench 簡化本地和云系統之間的協作
http://www.open-lab.net/zh-cn/blog/streamline-collaboration-across-local-and-cloud-systems-with-nvidia-ai-workbench/
Wed, 05 Feb 2025 04:39:30 +0000
http://www.open-lab.net/zh-cn/blog/?p=12877
Continued]]>
NVIDIA AI Workbench 是一款免費的開發環境管理器 ,用于在 GPUs 上開發、定制 AI 應用并對其進行原型設計。AI Workbench 為 AI、數據科學和機器學習 (ML) 項目提供跨 PCs、工作站、服務器和云的順暢體驗。用戶體驗包括: 本文詳細介紹了 2025 年 1 月發布的 NVIDIA AI Workbench,包括以下新集成和功能: 根據最近 Dell 和 NVIDIA HackAI Hackathon 的反饋,用戶希望通過 AI Workbench 輕松訪問云 GPU。這一切現已成為可能,得益于 NVIDIA AI Workbench 和 NVIDIA Brev 之間的合作。NVIDIA Brev 是一個 AI 開發平臺,可讓您在云端運行、構建、訓練和部署 ML 模型。 此 AI Workbench 版本首次與 Brev…
Source
]]>
12877
-
使用 NVIDIA Nsight 開發者工具和 GeForce RTX 50系列 GPU 構建神經渲染應用
http://www.open-lab.net/zh-cn/blog/build-apps-with-neural-rendering-using-nvidia-nsight-developer-tools-on-geforce-rtx-50-series-gpus/
Thu, 30 Jan 2025 04:59:01 +0000
http://www.open-lab.net/zh-cn/blog/?p=12895
Continued]]>
新一代 NVIDIA 圖形硬件已經面世。由 NVIDIA Blackwell 提供支持的 GeForce RTX 50 系列 GPU 可提供突破性的全新 RTX 功能,例如支持多幀生成的 DLSS 4,以及支持 RTX Mega Geometry 和 RTX Neural Shaders 的 NVIDIA RTX Kit 。NVIDIA RTX Blackwell 架構采用第五代 Tensor Cores 來驅動 AI 工作負載和第四代 RT Cores,三角形交叉速率是上一代的兩倍。它配備超快的 GDDR7 內存,可大幅提升總內存帶寬。 NVIDIA Nsight 開發者工具 支持圖形開發者使用 GeForce RTX 50 系列 GPUs 打造更加逼真的世界和仿真。 NVIDIA Nsight Graphics 是一款用于設計、
Source
]]>
12895
-
掌握 LLM 技術:評估
http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-evaluation/
Wed, 29 Jan 2025 05:34:32 +0000
http://www.open-lab.net/zh-cn/blog/?p=12917
Continued]]>
評估大語言模型(LLMs) 和 檢索增強生成(RAG) 系統是一個復雜而微妙的過程,反映了這些系統的復雜性和多面性。 與傳統機器學習(ML) 模型不同,LLMs 會生成各種不同且往往不可預測的輸出,因此無法滿足標準評估指標的需求。 主要挑戰包括許多任務缺乏確定的真值、數據污染的風險,以及模型對提示變化和解碼策略的敏感度。此外,LLMs 通常會生成高質量的輸出,甚至可以超越低質量的人類引用,從而無法滿足基于引用的傳統指標的需求。 在本文中,我們將探討用于評估 LLMs 和 RAG 系統準確性和可靠性的可靠評估技術和最佳實踐。 在 生成式 AI 應用的開發過程中,嚴格的評估對于確保系統有效性和可靠性至關重要。此過程具有多個關鍵功能,包括通過確認 AI 符合預期并提供有意義的交互來驗證用戶滿意度。評估還可確保輸出一致性,驗證生成的內容在邏輯上是否一致且符合上下文。
Source
]]>
12917
-
構建 AI 銷售助理的經驗教訓
http://www.open-lab.net/zh-cn/blog/lessons-learned-from-building-an-ai-sales-assistant/
Tue, 21 Jan 2025 06:00:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=12684
Continued]]>
在 NVIDIA,銷售運營團隊為銷售團隊提供將先進的硬件和軟件推向市場所需的工具和資源。通過 NVIDIA 的各種技術來管理這一點是許多企業都面臨的復雜挑戰。 通過與我們的銷售團隊合作,我們發現他們依賴于內部和外部文檔,通常會瀏覽多個存儲庫來查找信息。現在想象一下,一款 AI 銷售工具可以幫您完成所有這些工作。 本文將探討 NVIDIA 如何使用 大語言模型 (LLMs) 和 檢索增強生成 (RAG) 技術構建 AI 銷售助理,以簡化銷售工作流,并解決挑戰、核心解決方案組件和關鍵經驗教訓。有關更多信息,請參閱 Explore Retrieval Models 。 了解如何打造出色的 AI 銷售助理。 從直觀的多回合聊天平臺開始,該平臺由 Llama 3.1 70B 等功能強大的 LLM 提供支持。通過 Perplexity API 實現 RAG 和…
Source
]]>
12684
-
在 NVIDIA TensorRT-LLM 中引入新型 KV 緩存重用優化策略
http://www.open-lab.net/zh-cn/blog/introducing-new-kv-cache-reuse-optimizations-in-nvidia-tensorrt-llm/
Thu, 16 Jan 2025 06:08:15 +0000
http://www.open-lab.net/zh-cn/blog/?p=12687
Continued]]>
語言模型通過預測下一個令牌 (給定所有先前的令牌,包括輸入文本令牌) 來生成文本。在 LLM 服務中,先前令牌的鍵和值元素用作歷史語境,用于生成下一組令牌。從先前的 token 中緩存這些關鍵和值元素可以避免昂貴的重新計算,并有效地提高吞吐量。但是,鍵值 (KV) 緩存會隨著語言模型的大小、批處理請求的數量和序列上下文長度呈線性增長,從而導致內存需求不斷增長。 NVIDIA TensorRT-LLM 可提供多種 KV 緩存優化,以在顯存大小增長與避免昂貴的重新計算之間實現具有挑戰性的平衡。TensorRT-LLM 是一個開源庫,可為 NVIDIA GPUs 上的眾多熱門大語言模型 ( LLMs ) 提供先進的推理支持。TensorRT-LLM KV 緩存包括多項優化,例如支持分頁 KV 緩存、量化 KV 緩存、循環緩沖區 KV 緩存和 KV 緩存重復使用 。 在本文中,
Source
]]>
12687
-
提升 AI 性能的 GPU 內存基礎知識
http://www.open-lab.net/zh-cn/blog/gpu-memory-essentials-for-ai-performance/
Wed, 15 Jan 2025 06:45:46 +0000
http://www.open-lab.net/zh-cn/blog/?p=12709
Continued]]>
生成式 AI 徹底改變了人們將想法變為現實的方式,而代理 AI 代表著這一技術變革的下一次飛躍。通過利用復雜的自主推理和迭代規劃,AI 智能體可以非常高效地處理復雜的多步驟問題。 隨著 AI 不斷革新各行各業,對在本地運行 AI 模型的需求激增。無論是開發 AI 還是使用 AI,在本地運行 AI 模型都具有許多優勢,包括增強隱私、降低延遲以及離線工作的能力。 本地 AI 正在改變組織的 AI 開發和部署方式。通過在本地處理數據,開發者能夠繼續進行 AI 實驗和原型設計,而無需付出持續使用云的代價。本地 AI 成為創新和原型的測試平臺,可實現快速迭代和想法測試。與此同時,云基礎架構和數據中心可處理更密集的工作負載和大規模部署。 在本地運行 AI 模型還可滿足某些行業特定用例的獨特需求。在醫療健康領域,它可以實現安全的患者數據分析和快速診斷。
Source
]]>
12709
-
借助 NVIDIA 全棧解決方案提升 AI 推理性能
http://www.open-lab.net/zh-cn/blog/optimize-ai-inference-performance-with-nvidia-full-stack-solutions/
Tue, 24 Dec 2024 05:43:02 +0000
http://www.open-lab.net/zh-cn/blog/?p=12923
Continued]]>
AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。 NVIDIA 正在為開發者提供涵蓋芯片、系統和軟件的全棧創新,重新定義 AI 推理 的可能性,使其比以往更快、更高效、更具可擴展性。 六年前,NVIDIA 著手打造 AI 推理服務器,專為構建高吞吐量、延遲關鍵型生產應用的開發者而設計。當時,許多開發者都在努力使用定制的、特定于框架的服務器,這些服務器增加了復雜性,增加了運營成本,并且難以滿足嚴格的服務水平協議(service-level agreements)關于延遲和吞吐量的要求。 為解決這一問題,NVIDIA 開發了 NVIDIA Triton Inference Server ,這是一個開源平臺,能夠為來自任何 AI 框架的模型提供服務。通過整合特定于框架的推理服務器,
Source
]]>
12923
-
利用 RAPIDS 和 Ray 加速 GPU 數據分析
http://www.open-lab.net/zh-cn/blog/accelerating-gpu-analytics-using-rapids-and-ray/
Fri, 20 Dec 2024 08:38:41 +0000
http://www.open-lab.net/zh-cn/blog/?p=12465
Continued]]>
RAPIDS 是一套開源 GPU 加速的數據科學和 AI 庫,可通過 Spark 和 Dask 等分布式引擎進行橫向擴展。 Ray 是一種熱門的開源分布式 Python 框架,常用于擴展 AI 和機器學習 (ML) 應用。Ray 特別擅長簡化和擴展訓練和推理工作流,并且可以輕松面向 CPU 和 GPU 設備。 在本文中,我們將探討如何使用 Ray 和 RAPIDS 加速新型分析流程。 Ray 提供用于 訓練 和 服務 ML 模型的高級抽象概念 ,同時我們將試驗 Ray 的核心,尤其是 Ray Actors。Actors 是有狀態的 workers,這意味著每個 worker 都可以存儲、管理和變異存儲的任何數據。例如,如果您想使用 cuDF 在 GPU 上加載一些數據,可以執行以下操作: 此示例使用 Ray 在四個 GPU 上創建四個…
Source
]]>
12465
-
微調小型語言模型以提高代碼審查準確性
http://www.open-lab.net/zh-cn/blog/fine-tuning-small-language-models-to-optimize-code-review-accuracy/
Tue, 17 Dec 2024 10:01:01 +0000
http://www.open-lab.net/zh-cn/blog/?p=12508
Continued]]>
生成式 AI 通過 推動眾多 應用的創新和提高效率,正在改變企業。然而,采用大型 基礎模型 會帶來一些挑戰,包括高成本、慢性能、以及數據隱私問題。許多企業不愿與外部 LLM 提供商共享敏感代碼或數據。此外,雖然基礎 LLM 擅長處理一般任務,但它們通常需要大量的提示工程,才能在以企業為中心的特定用例中實現高準確性。 微調 小語言模型 (SLMs) 通常利用知識蒸餾等技術,為應對這些挑戰提供了極具吸引力的解決方案。這些較小的 LLM 可提供接近更大模型的性能,并且速度更快、成本效益更高。此外,SLMs 可以部署在本地或虛擬私有云 (VPCs) 中,使企業能夠確保敏感數據的安全。然而,微調較小的模型需要高質量的標記數據,而創建這些數據既耗時又昂貴。 本文介紹了一種自動微調方法,該方法通過使用數據飛輪策略來應對這些挑戰。數據飛輪策略是一種反饋驅動機制,可迭代地提高模型性能。
Source
]]>
12508
-
借助 WebAssembly 實現沙箱 Agentic AI 工作流
http://www.open-lab.net/zh-cn/blog/sandboxing-agentic-ai-workflows-with-webassembly/
Mon, 16 Dec 2024 05:04:34 +0000
http://www.open-lab.net/zh-cn/blog/?p=12521
Continued]]>
代理 AI 工作流通常 涉及執行由 大語言模型 (LLM) 生成的代碼,以執行創建數據可視化等任務。但是,此代碼應在安全環境中清理和執行,以降低提示 注入的風險 和返回代碼中的錯誤。使用正則表達式和受限運行時清理 Python 是不夠的,而且虛擬機的 Hypervisor 隔離需要大量的開發和資源。 本文將介紹如何使用 WebAssembly (Wasm) (一種基于堆棧的虛擬機的二進制指令格式),利用瀏覽器沙盒實現操作系統和用戶隔離。這提高了應用的安全性,且不會產生重大開銷。 LLM 應用開發的近期變化之一是公開工具,即 LLM 可以調用并使用響應的函數、應用或 API。例如,如果應用需要了解特定地點的天氣,它可以調用天氣 API,并使用結果制定適當的響應。 Python 代碼執行是用于擴展 LLM 應用的強大工具。LLM 擅長編寫 Python 代碼,
Source
]]>
12521
人人超碰97caoporen国产