黃雪 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Fri, 07 Mar 2025 09:12:52 +0000
zh-CN
hourly
1
196178272 -
基于 1F1B 的 MoE A2A 通信計算 Overlap
http://www.open-lab.net/zh-cn/blog/1f1b-moe-a2a-computing-overlap/
Fri, 07 Mar 2025 09:10:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=13059
Continued]]>
在 MoE 模型的訓練過程中,EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重,對訓練效率影響很大,特別是對于 Fine-grained MoE model,EP size 會比較大,跨機通信基本無法避免。那么要如何減少 EP A2A 對整體訓練效率的影響呢? 關于如何用計算掩蓋 EP A2A 通信,我們注意到目前有以下這些研究(不完全統計): 以上方案有各自的不足之處: 我們分析認為, Deepseek DualPipe 調度核心亮點是實現了 batch 之間 EP A2A 通信和 attention 、mlp 計算 overlap 的精細化調度, 從而使得跨機 EP 成為可行的分布式策略。
Source
]]>
13059
-
FP8?在大模型訓練中的應用、挑戰及實踐
http://www.open-lab.net/zh-cn/blog/fp8-llm-app-challenges/
Fri, 24 Jan 2025 08:50:45 +0000
http://www.open-lab.net/zh-cn/blog/?p=12729
Continued]]>
越來越多的技術團隊開始使用 FP8 進行大模型訓練,這主要因為 FP8 有很多技術優勢,比如在新一代的 GPU 上,FP8 相對于 BF16 對矩陣乘算子這樣的計算密集型算子,NVIDIA TensorCores 能夠提供兩倍的峰值性能,相對于 TF32 能夠提供四倍的加速,從而大大縮短計算密集型算子的計算時間。 而對于訪存密集型的算子,由于 FP8 所需的數據量更少,可以減輕訪存壓力,加速這些算子。如果在訓練時使用 FP8 精度,可以更方便快速地將 FP8 部署到推理側,使 FP8 訓練可以更容易順暢地與低精度推理相結合。 同時,由于 FP8 的動態范圍和精度相對于之前使用的 FP16/BF16/FP32 更小,如果使用 FP8 代替原來的數值精度進行訓練,技術團隊在模型和數據集上可能會遇到 FP8 精度的挑戰。
Source
]]>
12729
-
如何使用 FP8 加速大模型訓練
http://www.open-lab.net/zh-cn/blog/fp8-accelerate-llm-training/
Tue, 10 Dec 2024 10:17:18 +0000
http://www.open-lab.net/zh-cn/blog/?p=12265
Continued]]>
利用 FP8 技術加速 LLM 推理和訓練越來越受到關注,本文主要和大家介紹如何使用 FP8 這項新技術加速大模型的訓練。 使用 FP8 進行大模型訓練的優勢 FP8 是一種 8 位浮點數表示法,FP8 的詳細介紹可以參考此鏈接: https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html#Introduction-to-FP8 其中,使用 FP8 進行大模型訓練具有以下優勢: 當然,FP8 對比 FP16 或者 FP32 在數值表示范圍上引入了新的挑戰,從上面的表格中可以看到,FP8 數據類型所能表示的數值范圍較小,精度較低。因此需要針對 FP8 引入更細粒度的算法改進,
Source
]]>
12265
人人超碰97caoporen国产