劉宏斌

NVIDIA 加速計算專家,2020 年加入 NVIDIA DevTech 團隊,專注于 GPU 上深度學習模型的優化加速。目前主要負責生成式人工智能模型的訓練階段的加速優化。

Posts by 劉宏斌

生成式人工智能/大語言模型

基于 1F1B 的 MoE A2A 通信計算 Overlap

在 MoE 模型的訓練過程中,EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重,對訓練效率影響很大, 3 MIN READ
Uncategorized

FP8 訓練的挑戰及最佳實踐

本文主要介紹了FP8數據格式在大型模型訓練中的應用、挑戰及最佳實踐,展示了FP8在提升訓練速度和效率方面的潛力和實際效果。 一、 5 MIN READ