• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    高性能計算

    使用 CUTLASS v2.8 實現高性能矩陣乘法

    NVIDIA 繼續增強 Cutslass ,以提供對混合精度計算的廣泛支持,提供專門的數據移動和多重累積抽象。今天, NVIDIA 宣布推出 Cutslass 2 . 8 版。

    下載?免費 Cutslass v2 . 8 軟件。

    有什么新鮮事嗎

    • 模擬單精度 GEMM 和卷積(高達 48TFLOPs )
    • 分組 GEMM 概念
    • 改進的跨步 DGrad

    有關更多信息,請參閱 CUTLASS 發行說明

    關于彎刀

    CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有級別和規模上實現高性能矩陣乘法( GEMM )。它結合了分層分解和數據移動的策略,類似于用于實現cuBLAS的策略。

    CUTLASS 將這些“運動部件”分解為 C ++模板類抽象的可重用和模塊化的軟件組件。這些線程范圍、扭曲范圍、塊范圍和設備范圍的原語可以通過自定義平鋪大小、數據類型和其他算法策略進行專門化和調優。由此產生的靈活性簡化了它們在定制內核和應用程序中作為構建塊的使用。

    為了支持多種應用程序, CUTLASS 為混合精度計算提供了廣泛的支持,提供了專門的數據移動,并為以下各項提供了多重累積抽象:

    • 半精度浮點(FP16)、 BFloat16 (BF16)和張量浮點 32 (TF32)數據類型。
    • 單精度浮點(FP32)數據類型。
    • 雙精度浮點(FP64)數據類型。
    • 整數數據類型(4b8b)。
    • 二進制數據類型(1b)。

    此外, CUTLASS 演示了針對 NVIDIA Volta 、 Turing 和 Ampere 體系結構上實現的可編程、高通量 Tensor 核的扭曲同步矩陣乘法操作。

    CUTLASS 實現了高性能卷積(隱式 GEMM )。隱式 GEMM 是作為 GEMM 的卷積運算的公式。這允許 Cutslass 通過重用高度優化的 warp-wide GEMM 組件和以下組件來構建卷積。

    了解更多

    最近的開發者博客文章

    ?
    0

    標簽

    人人超碰97caoporen国产