• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    高性能計算

    加速 ReLu 和 GeLu 激活功能,并在 cuSPARSELt v0.2.0 中批量稀疏 GEMM

    今天,英偉達宣布推出 cuSPARSELt,版本 0 . 2 . 0 ,它提高了激活函數、偏差向量和批處理稀疏 GEMM 的性能。現在可以免費下載此軟件。

    下載 cuSPARSELt 軟件

    有什么新鮮事嗎?

    • 支持激活函數和偏差向量:
      • 所有內核的 ReLU +上限和閾值設置。
      • 用于 INT8 I / O 、 INT32 張量核心計算內核的 GeLU 。
    • 支持批處理稀疏 GEMM :
      • 單個稀疏矩陣/多個密集矩陣(廣播)。
      • 多重稀疏和稠密矩陣。
      • 批處理偏置矢量。
    • 兼容性說明:
      • cuSPARSELt 不需要nvrtc再也沒有圖書館了。
      • 對 Ubuntu 16 . 04 ( gcc-5 )的支持現在已被棄用,并將在未來的版本中刪除。

    有關更多技術信息,請參閱 cuSPARSELt Release Notes

    cuSPARSELt

    NVIDIA CUSPASSELT 是一個高性能 CUDA 庫,專用于一般矩陣運算,其中至少有一個操作數是稀疏矩陣:

    D=\alpha op(A)*op(B)+\beta op(C)

    在這個等式中, op(A)op(B) 指的是原位操作,例如轉置和非轉置。

    cuSPARSELt API 在算法/操作選擇、尾聲和矩陣特性(包括內存布局、對齊和數據類型)方面提供了靈活性。

    主要特征

    • NVIDIA Sparse MMA 張量核支持
    • 混合精度計算支持:
      • FP16 I / O 、 FP32 張量核累加。
      • BFLOAT16 I / O , FP32 張量核累積。
      • INT8 I / O , INT32 張量核計算。
      • FP32 I / O , TF32 張量核心計算。
      • TF32 I / O , TF32 張量核心計算。

    了解更多

    最近的開發者帖子

    ?
    0

    標簽

    人人超碰97caoporen国产