NVIDIA 繼續增強 Cutslass ,以提供對混合精度計算的廣泛支持,提供專門的數據移動和多重累積抽象。今天, NVIDIA 宣布推出 Cutslass 2 . 8 版。
下載?免費 Cutslass v2 . 8 軟件。
有什么新鮮事嗎
- 模擬單精度 GEMM 和卷積(高達 48TFLOPs )
- 分組 GEMM 概念
- 改進的跨步 DGrad
有關更多信息,請參閱 CUTLASS 發行說明 。
關于彎刀
CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有級別和規模上實現高性能矩陣乘法( GEMM )。它結合了分層分解和數據移動的策略,類似于用于實現cuBLAS
的策略。
CUTLASS 將這些“運動部件”分解為 C ++模板類抽象的可重用和模塊化的軟件組件。這些線程范圍、扭曲范圍、塊范圍和設備范圍的原語可以通過自定義平鋪大小、數據類型和其他算法策略進行專門化和調優。由此產生的靈活性簡化了它們在定制內核和應用程序中作為構建塊的使用。
為了支持多種應用程序, CUTLASS 為混合精度計算提供了廣泛的支持,提供了專門的數據移動,并為以下各項提供了多重累積抽象:
- 半精度浮點(
FP16
)、 BFloat16 (BF16
)和張量浮點 32 (TF32
)數據類型。 - 單精度浮點(
FP32
)數據類型。 - 雙精度浮點(
FP64
)數據類型。 - 整數數據類型(
4b
和8b
)。 - 二進制數據類型(
1b
)。
此外, CUTLASS 演示了針對 NVIDIA Volta 、 Turing 和 Ampere 體系結構上實現的可編程、高通量 Tensor 核的扭曲同步矩陣乘法操作。
CUTLASS 實現了高性能卷積(隱式 GEMM )。隱式 GEMM 是作為 GEMM 的卷積運算的公式。這允許 Cutslass 通過重用高度優化的 warp-wide GEMM 組件和以下組件來構建卷積。
了解更多
- 深入研究最新的 HPC 軟件 ( GTC : A31050 )
- 用彎刀中的張量核加速卷積 ( GTC : S31883 )
- NVIDIA 數學庫的最新發展 ( GTC : S31754 )
- 深入研究最新的 HPC 軟件 ( GTC : S31286 )
- AI 和 HPC 中稠密和稀疏線性代數的張量核加速數學庫 ( GTC : CWES1098 )
- CUTLASS 產品文檔
最近的開發者博客文章
- CUTLASS CUDA C 中的快速線性代數++
- 使用 NVIDIA A100 TF32 獲得即時加速
- 使用 NVIDIA TF32 張量核加速人工智能訓練
- 人工智能推理的 Int4 精度
- 加速 WinML 和 NVIDIA 張量核
?