郝尚榮 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 22 Nov 2024 03:50:57 +0000
zh-CN
hourly
1
196178272 -
TensorRT-LLM 低精度推理優化:從速度和精度角度的 FP8 vs INT8 的全面解析
http://www.open-lab.net/zh-cn/blog/tensorrt-llm-low-precision-inference-optimization-fp8-int8/
Wed, 20 Nov 2024 07:13:33 +0000
http://www.open-lab.net/zh-cn/blog/?p=11910
Continued]]>
本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model Optimizer(簡稱 ModelOpt,https://github.com/NVIDIA/TensorRT-Model-Optimizer)及其快速實現量化功能的方法。第三部分為 Debug。隨后講解 FP8 的 Deep-Dive,并進行總結。 一、速度和精度 在講解精度之前,先介紹 NVIDIA Hopper 架構上的數據類型 FP8,它有兩種數據類型:E5M2 和 E4M3,在 TensorRT-LLM 中目前支持 E4M3。對 Tensor Core 硬件來說,相比于 FP32/FP16 作為輸入,FP8 在數據傳輸上具有優勢。另外,
Source
]]>
11910
-
阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地實踐
http://www.open-lab.net/zh-cn/blog/ali-nvidia-nemo-tensorrt-llm/
Thu, 13 Jun 2024 05:41:11 +0000
http://www.open-lab.net/zh-cn/blog/?p=10286
Continued]]>
隨著 ChatGPT 的一夜爆火,大模型如今越來越廣泛的應用到各種業務領域中,阿里安全的業務領域對大模型技術的應用也已經 2 年有余。本文對阿里安全在大模型工程領域積累的實踐經驗做出總結和分享。 在大模型實際應用實踐的過程中,阿里安全采用 NVIDIA NeMoTM 框架和 TensorRT-LLM 大語言模型推理加速庫,顯著優化了模型訓練與推理性能。其中 NeMo 在多卡環境可實現 2-3 倍的訓練加速,TensorRT-LLM 結合 SmoothQuant Int8 可實現領先的推理加速比,動態批處理策略 (Dynamic Batch) 將計算步驟減少 30%,實際 QPS 增益 2-3 倍。Prompt 優化策略在特定業務中提升吞吐高達 10 倍。整體優化成果顯著增強了模型性能與業務效率。 掃描下方二維碼、點擊文章底部閱讀原文,或復制鏈接(https://www.
Source
]]>
10286
人人超碰97caoporen国产