今天,英偉達宣布推出 cuSPARSELt,版本 0 . 2 . 0 ,它提高了激活函數、偏差向量和批處理稀疏 GEMM 的性能。現在可以免費下載此軟件。
有什么新鮮事嗎?
- 支持激活函數和偏差向量:
- 所有內核的 ReLU +上限和閾值設置。
- 用于
INT8
I / O 、INT32
張量核心計算內核的 GeLU 。
- 支持批處理稀疏 GEMM :
- 單個稀疏矩陣/多個密集矩陣(廣播)。
- 多重稀疏和稠密矩陣。
- 批處理偏置矢量。
- 兼容性說明:
- cuSPARSELt 不需要nvrtc再也沒有圖書館了。
- 對 Ubuntu 16 . 04 ( gcc-5 )的支持現在已被棄用,并將在未來的版本中刪除。
有關更多技術信息,請參閱 cuSPARSELt Release Notes 。
cuSPARSELt
NVIDIA CUSPASSELT 是一個高性能 CUDA 庫,專用于一般矩陣運算,其中至少有一個操作數是稀疏矩陣:
在這個等式中, 和
指的是原位操作,例如轉置和非轉置。
cuSPARSELt API 在算法/操作選擇、尾聲和矩陣特性(包括內存布局、對齊和數據類型)方面提供了靈活性。
主要特征
- NVIDIA Sparse MMA 張量核支持
- 混合精度計算支持:
FP16
I / O 、FP32
張量核累加。BFLOAT16
I / O ,FP32
張量核累積。INT8
I / O ,INT32
張量核計算。FP32
I / O ,TF32
張量核心計算。TF32
I / O ,TF32
張量核心計算。
- 矩陣修剪和壓縮功能。
- 自動調諧功能(請參見 cusparseLtMatmulSearch() )。
了解更多
- 有關數學庫的更多信息,請參見 Recent Developments in NVIDIA Math Libraries ( GTC 2021 # S31754 )。
- 要獲取 HPC 軟件的最新信息,請參閱 A Deep Dive into the latest HPC software ( GTC 2021 # S31286 )。
- 趕上 Tensor Core-Accelerated Math Libraries for Dense and Sparse Linear Algebra in AI and HPC ( GTC 2021 # CWES1098 )。
- 請閱讀 cuSPARSELt Product Documentation 中的技術詳細信息。
最近的開發者帖子
- 有關高級矩陣乘法技術,請閱讀 Accelerating Matrix Multiplication with Block Sparse Format and NVIDIA Tensor Cores.
- 要利用 NVIDIA 安培體系結構性能,請閱讀 Exploiting NVIDIA Ampere Structured Sparsity with cuSPARSELt 。
- 要從 A100 加速中獲益,請閱讀 Getting Immediate Speedups with NVIDIA A100 TF32 。
- 要獲得 AI 培訓的好處,請參閱 Accelerating AI Training with NVIDIA TF32 Tensor Cores 。
?