<xmp id="om0om">

<td id="om0om"></td>

<table id="om0om"><noscript id="om0om"></noscript></table>

3 月 19 日下午 2 點，鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看

高性能計算

使用 CUTLASS v2.8 實現高性能矩陣乘法

2021年 11月 23日

By Matthew Nicely

0

點贊

NVIDIA 繼續增強 Cutslass ，以提供對混合精度計算的廣泛支持，提供專門的數據移動和多重累積抽象。今天， NVIDIA 宣布推出 Cutslass 2 . 8 版。

下載?免費 Cutslass v2 . 8 軟件。

有什么新鮮事嗎

模擬單精度 GEMM 和卷積（高達 48TFLOPs ）
分組 GEMM 概念
改進的跨步 DGrad

有關更多信息，請參閱 CUTLASS 發行說明。

關于彎刀

CUTLASS 是 CUDA C ++模板抽象的集合，用于在 CUDA 的所有級別和規模上實現高性能矩陣乘法（ GEMM ）。它結合了分層分解和數據移動的策略，類似于用于實現cuBLAS的策略。

CUTLASS 將這些“運動部件”分解為 C ++模板類抽象的可重用和模塊化的軟件組件。這些線程范圍、扭曲范圍、塊范圍和設備范圍的原語可以通過自定義平鋪大小、數據類型和其他算法策略進行專門化和調優。由此產生的靈活性簡化了它們在定制內核和應用程序中作為構建塊的使用。

為了支持多種應用程序， CUTLASS 為混合精度計算提供了廣泛的支持，提供了專門的數據移動，并為以下各項提供了多重累積抽象：

半精度浮點（FP16）、 BFloat16 （BF16）和張量浮點 32 （TF32）數據類型。
單精度浮點（FP32）數據類型。
雙精度浮點（FP64）數據類型。
整數數據類型（4b和8b）。
二進制數據類型（1b）。

此外， CUTLASS 演示了針對 NVIDIA Volta 、 Turing 和 Ampere 體系結構上實現的可編程、高通量 Tensor 核的扭曲同步矩陣乘法操作。

CUTLASS 實現了高性能卷積（隱式 GEMM ）。隱式 GEMM 是作為 GEMM 的卷積運算的公式。這允許 Cutslass 通過重用高度優化的 warp-wide GEMM 組件和以下組件來構建卷積。

了解更多

深入研究最新的 HPC 軟件（ GTC : A31050 ）
用彎刀中的張量核加速卷積（ GTC : S31883 ）
NVIDIA 數學庫的最新發展（ GTC : S31754 ）
深入研究最新的 HPC 軟件（ GTC : S31286 ）
AI 和 HPC 中稠密和稀疏線性代數的張量核加速數學庫（ GTC : CWES1098 ）
CUTLASS 產品文檔

最近的開發者博客文章

?

相關資源

GTC session: Programming Blackwell Tensor Cores with CUTLASS
GTC session: Enable Tensor Core Programming in Python with CUTLASS 4.0
GTC session: How to ace a finance developer interview: A Deep Dive into GPU Matrix Optimization
SDK: CUTLASS
SDK: cuBLAS
SDK: cuSPARSELt

0

點贊

標簽

高性能計算 | News | Higher Education / Academia | HPC / Supercomputing | Machine Learning & Artificial Intelligence | 新聞

關于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ，之前曾在美國 AL-Huntsville 的美國陸軍航空和導彈研究開發與工程中心工作。在那里，他專注于 CUDA 算法開發和 Jetson 系列的優化。在 NVIDIA ，他曾在聯邦部門工作，協助 CUDA 的開發和優化，以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗證，最近轉為 math libraries 產品經理。 2019 年，他獲得了博士學位。計算機工程學位，專注于 GPU 的算法優化。

查看 Matthew Nicely 所有文章

人人超碰97caoporen国产