黃雪 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 07 Mar 2025 09:12:52 +0000 zh-CN hourly 1 196178272 基于 1F1B 的 MoE A2A 通信計算 Overlap http://www.open-lab.net/zh-cn/blog/1f1b-moe-a2a-computing-overlap/ Fri, 07 Mar 2025 09:10:13 +0000 http://www.open-lab.net/zh-cn/blog/?p=13059 Continued]]> 在 MoE 模型的訓練過程中,EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重,對訓練效率影響很大,特別是對于 Fine-grained MoE model,EP size 會比較大,跨機通信基本無法避免。那么要如何減少 EP A2A 對整體訓練效率的影響呢? 關于如何用計算掩蓋 EP A2A 通信,我們注意到目前有以下這些研究(不完全統計): 以上方案有各自的不足之處: 我們分析認為, Deepseek DualPipe 調度核心亮點是實現了 batch 之間 EP A2A 通信和 attention 、mlp 計算 overlap 的精細化調度, 從而使得跨機 EP 成為可行的分布式策略。

Source

]]>
13059
FP8?在大模型訓練中的應用、挑戰及實踐 http://www.open-lab.net/zh-cn/blog/fp8-llm-app-challenges/ Fri, 24 Jan 2025 08:50:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=12729 Continued]]> 越來越多的技術團隊開始使用 FP8 進行大模型訓練,這主要因為 FP8 有很多技術優勢,比如在新一代的 GPU 上,FP8 相對于 BF16 對矩陣乘算子這樣的計算密集型算子,NVIDIA TensorCores 能夠提供兩倍的峰值性能,相對于 TF32 能夠提供四倍的加速,從而大大縮短計算密集型算子的計算時間。 而對于訪存密集型的算子,由于 FP8 所需的數據量更少,可以減輕訪存壓力,加速這些算子。如果在訓練時使用 FP8 精度,可以更方便快速地將 FP8 部署到推理側,使 FP8 訓練可以更容易順暢地與低精度推理相結合。 同時,由于 FP8 的動態范圍和精度相對于之前使用的 FP16/BF16/FP32 更小,如果使用 FP8 代替原來的數值精度進行訓練,技術團隊在模型和數據集上可能會遇到 FP8 精度的挑戰。

Source

]]>
12729
如何使用 FP8 加速大模型訓練 http://www.open-lab.net/zh-cn/blog/fp8-accelerate-llm-training/ Tue, 10 Dec 2024 10:17:18 +0000 http://www.open-lab.net/zh-cn/blog/?p=12265 Continued]]> 利用 FP8 技術加速 LLM 推理和訓練越來越受到關注,本文主要和大家介紹如何使用 FP8 這項新技術加速大模型的訓練。 使用 FP8 進行大模型訓練的優勢 FP8 是一種 8 位浮點數表示法,FP8 的詳細介紹可以參考此鏈接: https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html#Introduction-to-FP8 其中,使用 FP8 進行大模型訓練具有以下優勢: 當然,FP8 對比 FP16 或者 FP32 在數值表示范圍上引入了新的挑戰,從上面的表格中可以看到,FP8 數據類型所能表示的數值范圍較小,精度較低。因此需要針對 FP8 引入更細粒度的算法改進,

Source

]]>
12265
人人超碰97caoporen国产