高慧怡 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 04 Jul 2024 07:35:15 +0000 zh-CN hourly 1 196178272 探索 FP8 訓練中 Debug 思路與技巧 http://www.open-lab.net/zh-cn/blog/fp8-training-debug-tips/ Thu, 04 Jul 2024 07:19:20 +0000 http://www.open-lab.net/zh-cn/blog/?p=10560 Continued]]> 目前,市場上許多公司都積極開展基于 FP8 的大模型訓練,以提高計算效率和性能。 在此,我們整理并總結了客戶及 NVIDIA 技術團隊在 FP8 模型訓練過程中的 debug 思路和方法,供大家參考。 在討論之前,建議大家使用我們推薦的 FP8 訓練的 Recipe,即使用 Delayed scaling,在History length為1024的窗口中選取最大的amax數值作為計算scaling factor的方法。當然,我們也在不斷優化這個 Recipe,未來隨著更多 FP8 的實踐案例,將繼續為大家總結和分享,期待共同探索和優化 debug 的思路和方案。 在收集和整理了大量 FP8 訓練的案例后,我們發現,FP8 訓練中遇到的問題一般可以分成以下三類: 第一類問題:Spike Issue Spike Issue 其實并不是 FP8…

Source

]]>
10560
阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地實踐 http://www.open-lab.net/zh-cn/blog/ali-nvidia-nemo-tensorrt-llm/ Thu, 13 Jun 2024 05:41:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=10286 Continued]]> 隨著 ChatGPT 的一夜爆火,大模型如今越來越廣泛的應用到各種業務領域中,阿里安全的業務領域對大模型技術的應用也已經 2 年有余。本文對阿里安全在大模型工程領域積累的實踐經驗做出總結和分享。 在大模型實際應用實踐的過程中,阿里安全采用 NVIDIA NeMoTM 框架和 TensorRT-LLM 大語言模型推理加速庫,顯著優化了模型訓練與推理性能。其中 NeMo 在多卡環境可實現 2-3 倍的訓練加速,TensorRT-LLM 結合 SmoothQuant Int8 可實現領先的推理加速比,動態批處理策略 (Dynamic Batch) 將計算步驟減少 30%,實際 QPS 增益 2-3 倍。Prompt 優化策略在特定業務中提升吞吐高達 10 倍。整體優化成果顯著增強了模型性能與業務效率。 掃描下方二維碼、點擊文章底部閱讀原文,或復制鏈接(https://www.

Source

]]>
10286
NVIDIA GPU 架構下的 FP8 訓練與推理 http://www.open-lab.net/zh-cn/blog/nvidia-gpu-fp8-training-inference/ Thu, 25 Apr 2024 03:21:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=9584 Continued]]> 本文聚焦 NVIDIA FP8 訓練與推理的實踐應用,該內容來源于 2023 云棲大會 NVIDIA 專場演講。 FP8 訓練利用 E5M2/E4M3 格式,具備與 FP16 相當的動態范圍,適用于反向傳播與前向傳播。FP8 訓練在相同加速平臺上的峰值性能顯著超越 FP16/BF16,并且模型參數越大,訓練加速效果越好,且其與 16-bits 訓練在收斂性和下游任務表現上無顯著差異。FP8 訓練通過 NVIDIA Transformer Engine 實現,僅需少量代碼改動,并且支持 FlashAttention、混合精度訓練遷移等。支持 FP8 的框架包括 NVIDIA Megatron-LM、NeMo、DeepSpeed、飛槳 PaddlePaddle、Colossal AI、HuggingFace 等。 FP8 推理通過 NVIDIA TensorRT-LLM…

Source

]]>
9584
人人超碰97caoporen国产