<xmp id="om0om">

<td id="om0om"></td>

<table id="om0om"><noscript id="om0om"></noscript></table>

3 月 19 日下午 2 點，鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看

高性能計算

使用 cuTENSOR v1.4 編程分布式多 GPU 張量運算

2021年 11月 29日

By Matthew Nicely

+1

點贊

今天， NVIDIA 宣布推出 cuTENSOR 1.4 版，它支持多達 64 維張量、分布式多 GPU 張量操作，并幫助改進張量收縮性能模型。現在可以免費下載此軟件。

下載 cuTENSOR 軟件。

有什么新鮮事嗎？

支持多達 64 維張量。
支持分布式多 GPU 張量操作。
改進的張量收縮性能模型（即algo CUTENSOR_ALGO_DEFAULT）。
改進了具有整體大收縮維度的張量收縮性能（即增加了平行收縮）。
改進了具有微小收縮維度（<= 8 ）的張量收縮性能。
改進了張量收縮（如C[a,b,c,d] = A[b,d] * B[a,c]）等外積的性能。
其他錯誤修復。

有關更多信息，請參閱 cuTENSOR 發行說明。

關于 cuTENSOR

cuTENSOR 是一個用于張量原語的高性能 CUDA 庫；其主要特點包括：

廣泛的混合精度支持：
- FP64輸入與FP32計算。
- FP32通過FP16、BF16或TF32計算輸入。
- 復雜的時代需要真正的行動。
- 共軛（無轉置）支持。

支持多達 64 維張量。
支持任意數據布局。
支持簡單的可序列化數據結構。
主要計算例程的增強功能：
- 直接（即無轉置）張量收縮 .
- 張量約化（包括部分約化） .
- 元素態張量運算：
  - 支持各種激活功能。
  - 任意張量置換。
  - 不同數據類型之間的轉換

了解更多

關于數學庫，請參見 NVIDIA 數學庫的最新發展（ GTC # S31754 ）。
有關 HPC 軟件的最新信息，請參閱深入研究最新的 HPC 軟件（ GTC # S31286 ）。
趕上 AI 和 HPC 中稠密和稀疏線性代數的張量核加速數學庫 GTC # CWES1098 ）。
閱讀我們網站中的技術細節cuTENSOR 產品文檔.

最近的開發者帖子

關于支持 Tensor 核的 Fortran 增強，請閱讀將張量核引入標準 Fortran 。
受益于 A100 加速和讀取使用 NVIDIA A100 TF32 獲得即時加速。
要獲得 AI 培訓的好處，請參見使用 NVIDIA TF32 張量核加速人工智能訓練。

?

相關資源

GTC session: cuTENSOR Optimizations for Quantum Circuit Simulation Using Tensor Network on Grace Hopper
GTC session: Programming Blackwell Tensor Cores with CUTLASS
GTC session: Enable Blackwell Inference With TensorRT Model Optimizer
SDK: cuTENSORMg
SDK: cuTENSOR
SDK: Torch-TensorRT

+1

點贊

標簽

高性能計算 | Higher Education / Academia | HPC / Supercomputing | Machine Learning & AI

關于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ，之前曾在美國 AL-Huntsville 的美國陸軍航空和導彈研究開發與工程中心工作。在那里，他專注于 CUDA 算法開發和 Jetson 系列的優化。在 NVIDIA ，他曾在聯邦部門工作，協助 CUDA 的開發和優化，以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗證，最近轉為 math libraries 產品經理。 2019 年，他獲得了博士學位。計算機工程學位，專注于 GPU 的算法優化。

查看 Matthew Nicely 所有文章

人人超碰97caoporen国产