TensorRT – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 12 Mar 2025 06:44:08 +0000 zh-CN hourly 1 196178272 借助 NVIDIA DriveOS LLM SDK 簡化自動駕駛汽車應用的 LLM 部署 http://www.open-lab.net/zh-cn/blog/streamline-llm-deployment-for-autonomous-vehicle-applications-with-nvidia-driveos-llm-sdk/ Mon, 10 Mar 2025 06:57:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=13098 Continued]]> 大語言模型 (LLMs) 在自然語言處理 (NLP) 中表現出非凡的泛化能力。它們廣泛應用于翻譯、數字助理、推薦系統、上下文分析、代碼生成、網絡安全等。汽車應用對基于 LLMs 的自動駕駛和座艙功能解決方案的需求與日俱增。在通常資源受限的汽車平臺上部署 LLMs 和 視覺語言模型 (VLMs) 已成為一項嚴峻的挑戰。 本文將介紹 NVIDIA DriveOS LLM SDK,該庫旨在優化自動駕駛汽車 DRIVE AGX 平臺 上先進 LLM 和 VLM 的推理。它是基于 NVIDIA TensorRT 推理引擎構建的輕量級工具包。它整合了針對 LLM 的特定優化,例如自定義注意力內核和量化技術,以便在汽車平臺上部署 LLM。 該工具包提供易于使用的 C++ 庫和示例代碼,用于導出、構建 TensorRT 引擎、執行推理,以及使用完整的端到端工作流對 LLM 進行基準測試。

Source

]]>
13098
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 優化 SLM 基礎的垂直服務 http://www.open-lab.net/zh-cn/blog/spotlight-naver-place-optimizes-slm-based-vertical-services-with-nvidia-tensorrt-llm/ Fri, 28 Feb 2025 06:40:09 +0000 http://www.open-lab.net/zh-cn/blog/?p=13155 Continued]]> NAVER 是一家韓國熱門搜索引擎公司,提供 Naver Place ,這是一項基于地理的服務,可提供有關韓國數百萬家企業和興趣點的詳細信息。用戶可以搜索不同的地點、發表評論,以及實時進行預訂或下單。 NAVER Place 垂直服務基于小語言模型 (SLMs) 來提高可用性,并專門針對 Place、Map 和 Travel。本文分享了 NVIDIA 和 NAVER 如何使用 NVIDIA TensorRT-LLM 優化 SLM 推理性能,從而在 NVIDIA Triton Inference Server 上實現基于 SLM 的垂直服務。如需詳細了解 NAVER 如何使用 AI,請參閱 NAVER Place AI 開發團隊簡介 。 與 大語言模型(LLMs) 相比,小語言模型(SLMs)是能夠以更少的參數理解自然語言的 AI 模型。眾所周知,

Source

]]>
13155
為 NVIDIA Blackwell GeForce RTX 50 系列 GPU 發布全新 AI SDK 和工具 http://www.open-lab.net/zh-cn/blog/new-ai-sdks-and-tools-released-for-nvidia-blackwell-geforce-rtx-50-series-gpus/ Thu, 30 Jan 2025 05:23:17 +0000 http://www.open-lab.net/zh-cn/blog/?p=12907 Continued]]> NVIDIA 最近宣布推出 新一代 PC GPU – GeForce RTX 50 系列 ,以及面向開發者的全新 AI 賦能 SDK 和工具。GeForce RTX 50 系列由 NVIDIA Blackwell 架構 、第五代 Tensor Cores 和第四代 RT Cores 提供動力支持,在神經著色器、數字人技術、幾何圖形和照明等 AI 驅動渲染方面實現了突破。 今天,NVIDIA 發布了第一波適用于 GeForce RTX 50 Series GPUs 的 SDK。作為開發者,您可以開始將這些更新集成到您的應用中,以確保與 NVIDIA Blackwell RTX GPUs 的軟件兼容性和最佳性能,并展示 GeForce RTX 50 Series GPUs 的新功能。 本文詳細介紹了新的和更新的 SDK,這些 SDK 可助力開發者充分利用 NVIDIA…

Source

]]>
12907
借助 NVIDIA 全棧解決方案提升 AI 推理性能 http://www.open-lab.net/zh-cn/blog/optimize-ai-inference-performance-with-nvidia-full-stack-solutions/ Tue, 24 Dec 2024 05:43:02 +0000 http://www.open-lab.net/zh-cn/blog/?p=12923 Continued]]> AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。 NVIDIA 正在為開發者提供涵蓋芯片、系統和軟件的全棧創新,重新定義 AI 推理 的可能性,使其比以往更快、更高效、更具可擴展性。 六年前,NVIDIA 著手打造 AI 推理服務器,專為構建高吞吐量、延遲關鍵型生產應用的開發者而設計。當時,許多開發者都在努力使用定制的、特定于框架的服務器,這些服務器增加了復雜性,增加了運營成本,并且難以滿足嚴格的服務水平協議(service-level agreements)關于延遲和吞吐量的要求。 為解決這一問題,NVIDIA 開發了 NVIDIA Triton Inference Server ,這是一個開源平臺,能夠為來自任何 AI 框架的模型提供服務。通過整合特定于框架的推理服務器,

Source

]]>
12923
NVIDIA?TensorRT-LLM?現支持?Recurrent Drafting,實現?LLM?推理優化 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/ Wed, 18 Dec 2024 08:20:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=12404 Continued]]> Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術,該技術現在可與 NVIDIA TensorRT-LLM 一起使用。ReDrafter 幫助開發者大幅提升了 NVIDIA GPU 上的 LLM 工作負載性能。NVIDIA TensorRT-LLM 是一個 LLM 推理優化庫,提供了一個易于使用的 Python API 來定義 LLM 和構建 NVIDIA TensorRT 引擎,這些引擎具有頂尖的優化功能,可在 GPU 上高效執行推理。優化功能包括自定義 Attention Kernel、Inflight Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant) 等。 推測解碼 (Speculative decoding)…

Source

]]>
12404
NVIDIA TensorRT-LLM 現支持動態批處理加速編碼器 – 解碼器模型 http://www.open-lab.net/zh-cn/blog/nvidia-tensorrt-llm-now-accelerates-encoder-decoder-models-with-in-flight-batching/ Wed, 11 Dec 2024 06:33:05 +0000 http://www.open-lab.net/zh-cn/blog/?p=12380 Continued]]> NVIDIA 最近宣布, NVIDIA TensorRT-LLM 現可加速編碼器 – 解碼器模型架構 。TensorRT-LLM 是一個開源庫,可針對各種模型架構優化推理,包括: 編碼器-解碼器模型支持的添加進一步擴展了 TensorRT-LLM 功能,為 NVIDIA GPUs 上更廣泛的生成式 AI 應用提供高度優化的推理。 TensorRT-LLM 使用 NVIDIA TensorRT 深度學習編譯器。它包含經過最新優化的內核,可在前沿實現用于 LLM 模型執行的不同注意力機制。它還在一個簡單的開源 API 中包含預處理和后處理步驟以及多 GPU/多節點通信基元,可在 GPU 上實現突破性的 LLM 推理性能。 TensorRT-LLM 可處理編碼器 – 解碼器模型系列 (例如 T5 、 mT5 、Flan-T5、 BART 、 mBART 、

Source

]]>
12380
TensorRT-LLM 低精度推理優化:從速度和精度角度的 FP8 vs INT8 的全面解析 http://www.open-lab.net/zh-cn/blog/tensorrt-llm-low-precision-inference-optimization-fp8-int8/ Wed, 20 Nov 2024 07:13:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=11910 Continued]]> 本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model Optimizer(簡稱 ModelOpt,https://github.com/NVIDIA/TensorRT-Model-Optimizer)及其快速實現量化功能的方法。第三部分為 Debug。隨后講解 FP8 的 Deep-Dive,并進行總結。 一、速度和精度 在講解精度之前,先介紹 NVIDIA Hopper 架構上的數據類型 FP8,它有兩種數據類型:E5M2 和 E4M3,在 TensorRT-LLM 中目前支持 E4M3。對 Tensor Core 硬件來說,相比于 FP32/FP16 作為輸入,FP8 在數據傳輸上具有優勢。另外,

Source

]]>
11910
Llama 3.2 全棧優化釋放 NVIDIA GPU 的高性能 http://www.open-lab.net/zh-cn/blog/llama-3-2-full-stack-optimizations-unlock-high-performance-on-nvidia-gpus/ Tue, 19 Nov 2024 09:20:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12199 Continued]]> Meta 最近發布了 Llama 3.2 系列視覺語言模型(VLM),其中包含 11B 參數和 90B 參數變體。這些模型是多模態模型,支持文本和圖像輸入。此外,Meta 還推出了 Llama 3.2 的純文本 小語言模型(SLM) 變體,具有 1B 和 3B 參數。NVIDIA 已對 Llama 3.2 模型集合進行優化,以便在全球數百萬個 GPU 上提供出色的性能和經濟高效的服務 – 從我們功能強大的數據中心和云 GPU 到本地 NVIDIA RTX 工作站 ,甚至是使用 NVIDIA Jetson 的低功耗邊緣設備。 Llama 3.2 VLM 支持長達 128K 的文本標記,以及分辨率為 1120 x 1120 像素的單張圖像輸入。為了實現低延遲響應,提供出色的用戶體驗,同時提供高吞吐量以經濟高效地提供這些模型,NVIDIA 平臺在技術堆棧的每一層都進行了優化。

Source

]]>
12199
NVIDIA NIM 1.4 現已部署可用,推理速度提升 2.4 倍 http://www.open-lab.net/zh-cn/blog/nvidia-nim-1-4-ready-to-deploy-with-2-4x-faster-inference/ Fri, 15 Nov 2024 07:01:07 +0000 http://www.open-lab.net/zh-cn/blog/?p=12026 Continued]]> 隨著 生成式 AI 重塑各行各業,對可立即部署的高性能推理的需求也在不斷增長。 NVIDIA NIM 為 AI 模型推理提供生產就緒型微服務容器,不斷提高企業級生成式 AI 性能。即將推出的 NIM 版本 1.4 定于 12 月初發布,開箱即用的請求性能可提升高達 2.4 倍,并提供相同的單命令部署體驗。 NIM 的核心是多個 LLM 推理引擎,包括 NVIDIA TensorRT-LLM ,可實現光速推理性能。在每個版本中,NIM 都整合了來自這些引擎的內核優化、內存管理和調度方面的最新進展,以提高性能。 在 NIM 1.4 中,內核效率、運行時啟發式算法和內存分配有了顯著改進,推理速度提高了 2.4 倍。這些進步對于依賴快速響應和高吞吐量的生成式 AI 應用的企業至關重要。 NIM 還受益于全棧加速計算的持續更新,可提升計算堆棧各個級別的性能和效率。

Source

]]>
12026
NVIDIA TensorRT-LLM KV 緩存早期重用實現首個令牌速度 5 倍提升 http://www.open-lab.net/zh-cn/blog/5x-faster-time-to-first-token-with-nvidia-tensorrt-llm-kv-cache-early-reuse/ Fri, 08 Nov 2024 08:12:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=12068 Continued]]> 在上一篇 博客文章 中,我們展示了通過將鍵值 (KV) 緩存卸載到 CPU 內存來重復使用該緩存如何在基于 x86 的 NVIDIA H100 Tensor Core GPU 上將首次生成令牌 (Time To First Token, TTFT) 的速度提升高達 14 倍,在 NVIDIA GH200 Superchip 上可將其提升高達 28 倍。在本文中,我們介紹了可以進一步推動 TTFT 加速的 KV 緩存重復使用技術和最佳實踐。 許多任務(包括問答和代碼生成)都迅速采用了 LLM 模型。為了生成響應,這些模型首先將用戶的提示符轉換為 tokens,然后將其轉換為 dense vectors。隨后會進行大量的 dot-product operations,以數學方式對 tokens 之間的關系建模,并構建對用戶輸入的上下文理解。

Source

]]>
12068
NVSwitch 和 TensorRT-LLM MultiShot 共同加速 AllReduce 速度達 3 倍 http://www.open-lab.net/zh-cn/blog/3x-faster-allreduce-with-nvswitch-and-tensorrt-llm-multishot/ Fri, 01 Nov 2024 09:11:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=11840 Continued]]> 在用戶數量可能在數百到數十萬之間波動,且輸入序列長度隨每個請求而變化的生產環境中,部署生成式 AI 工作負載會面臨獨特的挑戰。要在這些環境中實現低延遲推理,無論 GPU 生成方式或顯存容量如何,多 GPU 設置都是必需的。為了提高生產級設置中的推理性能,我們很高興推出 TensorRT-LLM Multi-shot,這是一種新的多 GPU 通信協議,利用 NVIDIA NVLink Switch 可將通信速度大幅提升高達 3 倍。本博客概述了這一新功能,以及它如何幫助開發者和解決方案架構師克服傳統多 GPU 通信方法的限制。 對于低延遲推理,無論單個 GPU 的顯存容量如何,多 GPU 都至關重要。但是,在低并發情況下,GPU 花在交換數據上的時間可能超過花在計算上的時間。為了獲得最佳性能, 高效的 AllReduce 操作 –結合每個參與其中的 GPU 的部分結果的集合操作…

Source

]]>
11840
NVIDIA 加速庫助力 Microsoft Bing 視覺搜索性能優化 http://www.open-lab.net/zh-cn/blog/optimizing-microsoft-bing-visual-search-with-nvidia-accelerated-libraries/ Mon, 07 Oct 2024 08:04:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=11459 Continued]]> Microsoft Bing 視覺搜索使全球用戶能夠使用照片作為查詢來查找內容。該功能的核心是 Microsoft 的 TuringMM 視覺嵌入模型,該模型可將圖像和文本映射到共享的高維空間中。在對網上數十億張圖像進行操作時,性能至關重要。 本文詳細介紹了使用 NVIDIA TensorRT 和 NVIDIA 加速庫 (如 CV-CUDA 和 nvImageCodec) 優化 TuringMM 工作流的工作。這些工作將速度提高了 5.13 倍,并顯著降低了總體擁有成本(TCO)。我們分享了我們如何與 Microsoft Bing 團隊合作,解決其核心嵌入工作流的優化問題,從而為互聯網規模的視覺搜索提供支持。 Microsoft Bing 多媒體的博士生、高級數據和應用科學家 Andrew Stewart 表示:

Source

]]>
11459
Llama 3.2 加速部署從邊緣到云端實現提速 http://www.open-lab.net/zh-cn/blog/deploying-accelerated-llama-3-2-from-the-edge-to-the-cloud/ Wed, 25 Sep 2024 03:13:01 +0000 http://www.open-lab.net/zh-cn/blog/?p=11516 Continued]]> 擴展開源 Meta Llama 模型集合,Llama 3.2 集合包括視覺語言模型(VLM)、小語言模型(SLM)和更新版的 Llama Guard 模型,后者支持視覺功能。當與 NVIDIA 加速計算平臺配對使用時,Llama 3.2 為開發者、研究人員和企業提供了寶貴的新功能和優化,以實現其生成式 AI 應用案例。 在 NVIDIA H100 Tensor Core GPU 上訓練的 SLM,尺寸為 1B 和 3B 的 SLM 非常適合部署在邊緣設備上的基于 Llama 的 AI 助手。尺寸為 11B 和 90B 的 VLM 支持文本和圖像輸入以及輸出文本。VLM 提供多模態支持,可幫助開發者構建需要視覺接地、推理和理解的強大應用程序。例如,他們可以構建用于圖像字幕、圖像文本檢索、視覺問答和文檔問答等的 AI 代理。Llama Guard 模型現在除了支持文本輸入之外,

Source

]]>
11516
NVIDIA Aerial Omniverse 數字孿生助力打造新一代無線網絡 http://www.open-lab.net/zh-cn/blog/developing-next-gen-wireless-networks-with-nvidia-aerial-omniverse-digital-twin/ Tue, 24 Sep 2024 05:58:53 +0000 http://www.open-lab.net/zh-cn/blog/?p=11353 Continued]]> 6G 之旅已經開始,為提供高性能、高效、彈性和適應性強的網絡基礎設施提供了機會。6G 網絡將比前代網絡復雜得多,并且將依賴于各種新技術,特別是人工智能(AI)和機器學習(ML)。 為了推進這些新技術并優化網絡性能和效率,我們需要一個無線網絡數字孿生平臺進行研究和開發。網絡數字孿生依賴于真實物理無線電環境中移動網絡的數字副本,如圖 1 所示。 NVIDIA Aerial Omniverse 數字孿生(AODT) 提供了一個網絡數字孿生平臺,可加速 6G 研發。AODT 利用關鍵的 NVIDIA 技術——包括 NVIDIA RTX GPU 的近實時光線追蹤功能和 NVIDIA Omniverse ——為無線網絡實現物理精準、高性能和模塊化的數字孿生平臺。 無線接入網(RAN)的研究和模擬通常可以細分為兩個主要領域: NVIDIA AODT 可以對整個 6G…

Source

]]>
11353
借助 ReMEmbR,生成式 AI 賦予機器人推理和行動能力 http://www.open-lab.net/zh-cn/blog/using-generative-ai-to-enable-robots-to-reason-and-act-with-remembr/ Mon, 23 Sep 2024 07:14:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=11362 Continued]]> 視覺語言模型 (VLM)通過將文本和圖像投影到同一嵌入空間,將基礎 LLM 的強大語言理解能力與 視覺 Transformer (ViT)的視覺功能相結合。它們可以獲取非結構化多模態數據并對其進行推理,然后以結構化格式返回輸出。這些模型基于廣泛的預訓練基礎構建,可以通過提供新提示或參數高效微調輕松適應不同的視覺相關任務。 它們還可以與實時數據源和工具集成,以便在不知道答案時請求獲取更多信息,或在知道答案時采取行動。LLMs 和 VLMs 可以充當代理,對數據進行推理,幫助機器人執行可能難以定義的有意義任務。 在之前的文章“ 使用 NVIDIA Jetson 實現生成式 AI ”中,我們展示了您可以在 NVIDIA Jetson Orin 設備上運行 LLM 和 VLM,從而實現各種新功能,例如零樣本物體檢測、視頻字幕和在邊緣設備上生成文本。 但是,

Source

]]>
11362
人人超碰97caoporen国产