Markus Hohnerbach – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 14 Mar 2024 07:14:02 +0000 zh-CN hourly 1 196178272 cuTENSOR 2.0:用于加速張量計算的全面指南 http://www.open-lab.net/zh-cn/blog/cutensor-2-0-a-comprehensive-guide-for-accelerating-tensor-computations/ Fri, 08 Mar 2024 07:08:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=9225 Continued]]> NVIDIA cuTENSOR 是一個 CUDA 數學庫,提供經過優化的張量運算。張量是一種密集的多維數組或數組片段。cuTENSOR 2.0 的發布代表著功能和性能方面的重大更新,這一版本重構了其 API,使其更富有表現力,包括在 NVIDIA Ampere 和 NVIDIA Hopper GPU 架構上實現的出色性能。 本文介紹了 cuTENSOR 2.0 庫,以及如何使用其運算。有關更多信息,請參閱系列中的下一篇文章 cuTENSOR 2.0:性能和應用. 雖然張量運算看起來很陌生,但它們描述了許多自然發生的算法。尤其是,這些運算在機器學習和量子化學中十分常見。 如果您已經使用 NVIDIA cuBLAS 或 BLAS,cuTENSOR 提供的三個例程可能會讓您感到眼前一亮: 主要區別在于,cuTENSOR 可將這些運算擴展到多維度 .

Source

]]>
9225
cuTENSOR 2.0:應用程序和性能 http://www.open-lab.net/zh-cn/blog/cutensor-2-0-applications-and-performance/ Fri, 08 Mar 2024 06:58:15 +0000 http://www.open-lab.net/zh-cn/blog/?p=9217 Continued]]> 雖然 第 1 部分 專注于使用全新的 NVIDIA cuTENSOR 2.0 CUDA 數學庫,但本文將介紹其他使用模式,特別是 Python 和 Julia 的使用。我們還將展示基于基準測試的 cuTENSOR 性能在多個應用領域中的表現。 本文探討了 cuTENSOR 2.0 的應用程序和性能基準測試。有關更多信息,請參閱系列的第一篇文章:cuTENSOR 2.0:用于加速張量計算的全面指南. 我們提供 Cutensor Python 軟件包,其中包含用于 Einsum 樣式的界面。該包利用 cuTENSOR,可以類似于 PyTorch 和 TensorFlow 的原生 einsum 實現。有關更多信息,請參閱 Installation 部分。 例如,cuTENSOR 可以作為 torch.einsum 使用,如下代碼示例所示:

Source

]]>
9217
用 NVIDIA cuTENSORMg 擴展多重 GPU 的塊循環張量 http://www.open-lab.net/zh-cn/blog/extending-block-cyclic-tensors-for-multi-gpu-with-nvidia-cutensormg/ Fri, 08 Apr 2022 09:03:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3669 Continued]]> 張量收縮是機器學習、計算化學和量子計算中許多重要工作的核心。隨著科學家和工程師們對不斷增長的問題的研究,基礎數據變得越來越大,計算時間也越來越長。 當張量收縮不再適合單個 GPU 時,或者如果在單個 GPU 上花費的時間太長,自然下一步是將收縮分布到多個 GPU 上。我們一直在用這個新功能擴展 cuTENSOR ,并將其作為一個名為 cuTENSORMg (多 GPU )的新庫發布。它在塊循環分布張量上提供單進程多 GPU 功能。 cuTENSORMg 的和操作大致分為句柄、張量描述符和描述符。在這篇文章中,我們將解釋句柄和張量描述符,以及復制操作是如何工作的,并演示如何執行張量收縮。然后,我們將展示如何測量各種工作負載和 GPU 配置下收縮操作的性能。 庫句柄表示參與計算的設備集。句柄還包含跨調用重用的數據和資源。通過將設備列表傳遞給函數,可以創建庫句柄:

Source

]]>
3669
人人超碰97caoporen国产