黃雪 – NVIDIA 技術博客

基于 1F1B 的 MoE A2A 通信計算 Overlap

Fri, 07 Mar 2025 09:10:13 +0000

在 MoE 模型的訓練過程中，EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重，對訓練效率影響很大，特別是對于 Fine-grained MoE model，EP size 會比較大，跨機通信基本無法避免。那么要如何減少 EP A2A 對整體訓練效率的影響呢？關于如何用計算掩蓋 EP A2A 通信，我們注意到目前有以下這些研究（不完全統計）：以上方案有各自的不足之處：我們分析認為， Deepseek DualPipe 調度核心亮點是實現了 batch 之間 EP A2A 通信和 attention 、mlp 計算 overlap 的精細化調度, 從而使得跨機 EP 成為可行的分布式策略。

Source

]]>

FP8?在大模型訓練中的應用、挑戰及實踐

Fri, 24 Jan 2025 08:50:45 +0000

越來越多的技術團隊開始使用 FP8 進行大模型訓練，這主要因為 FP8 有很多技術優勢，比如在新一代的 GPU 上，FP8 相對于 BF16 對矩陣乘算子這樣的計算密集型算子，NVIDIA TensorCores 能夠提供兩倍的峰值性能，相對于 TF32 能夠提供四倍的加速，從而大大縮短計算密集型算子的計算時間。而對于訪存密集型的算子，由于 FP8 所需的數據量更少，可以減輕訪存壓力，加速這些算子。如果在訓練時使用 FP8 精度，可以更方便快速地將 FP8 部署到推理側，使 FP8 訓練可以更容易順暢地與低精度推理相結合。同時，由于 FP8 的動態范圍和精度相對于之前使用的 FP16/BF16/FP32 更小，如果使用 FP8 代替原來的數值精度進行訓練，技術團隊在模型和數據集上可能會遇到 FP8 精度的挑戰。

Source

]]>

如何使用 FP8 加速大模型訓練

Tue, 10 Dec 2024 10:17:18 +0000

利用 FP8 技術加速 LLM 推理和訓練越來越受到關注，本文主要和大家介紹如何使用 FP8 這項新技術加速大模型的訓練。使用 FP8 進行大模型訓練的優勢 FP8 是一種 8 位浮點數表示法，FP8 的詳細介紹可以參考此鏈接： https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html#Introduction-to-FP8 其中，使用 FP8 進行大模型訓練具有以下優勢：當然，FP8 對比 FP16 或者 FP32 在數值表示范圍上引入了新的挑戰，從上面的表格中可以看到，FP8 數據類型所能表示的數值范圍較小，精度較低。因此需要針對 FP8 引入更細粒度的算法改進，

Source

]]>