今天, NVIDIA 宣布推出 cuTENSOR 1.4 版,它支持多達 64 維張量、分布式多 GPU 張量操作,并幫助改進張量收縮性能模型。現在可以免費下載此軟件。
有什么新鮮事嗎?
- 支持多達 64 維張量。
- 支持分布式多 GPU 張量操作。
- 改進的張量收縮性能模型(即
algo CUTENSOR_ALGO_DEFAULT
)。 - 改進了具有整體大收縮維度的張量收縮性能(即增加了平行收縮)。
- 改進了具有微小收縮維度(<= 8 )的張量收縮性能。
- 改進了張量收縮(如
C[a,b,c,d] = A[b,d] * B[a,c]
)等外積的性能。 - 其他錯誤修復。
有關更多信息,請參閱 cuTENSOR 發行說明 。
關于 cuTENSOR
cuTENSOR 是一個用于張量原語的高性能 CUDA 庫;其主要特點包括:
- 廣泛的混合精度支持:
FP64
輸入與FP32
計算。FP32
通過FP16
、BF16
或TF32
計算輸入。- 復雜的時代需要真正的行動。
- 共軛(無轉置)支持。
- 支持多達 64 維張量。
- 支持任意數據布局。
- 支持簡單的可序列化數據結構。
- 主要計算例程的增強功能:
- 直接(即無轉置)張量收縮 .
- 張量約化(包括部分約化) .
- 元素態張量運算 :
- 支持各種激活功能。
- 任意張量置換。
- 不同數據類型之間的轉換
了解更多
- 關于數學庫,請參見 NVIDIA 數學庫的最新發展 ( GTC # S31754 )。
- 有關 HPC 軟件的最新信息,請參閱 深入研究最新的 HPC 軟件 ( GTC # S31286 )。
- 趕上 AI 和 HPC 中稠密和稀疏線性代數的張量核加速數學庫 GTC # CWES1098 )。
- 閱讀我們網站中的技術細節cuTENSOR 產品文檔.
最近的開發者帖子
- 關于支持 Tensor 核的 Fortran 增強,請閱讀 將張量核引入標準 Fortran 。
- 受益于 A100 加速和讀取 使用 NVIDIA A100 TF32 獲得即時加速 。
- 要獲得 AI 培訓的好處,請參見 使用 NVIDIA TF32 張量核加速人工智能訓練 。
?