超級計算 – NVIDIA 技術博客

利用 GPT 推進量子算法設計

Mon, 30 Sep 2024 09:19:55 +0000

大語言模型（LLMs）等 AI 技術正在迅速改變許多科學學科。量子計算也不例外。NVIDIA、多倫多大學和圣猶達兒童研究醫院攜手合作，將生成式預訓練變壓器（GPTs）引入新量子算法的設計中，包括生成式量子特征求解器（GQE）技術。 GQE 技術是 AI for Quantum 技術浪潮中的新技術。由 NVIDIA CUDA-Q 平臺開發，GQE 是第一種使用自己的 GPT 模型創建復雜量子電路的方法。 CUDA-Q 平臺在開發 GQE 方面發揮了重要作用。在量子計算中訓練和使用 GPT 模型需要對 CPU、GPU 和 QPU 進行混合訪問。CUDA-Q 專注于加速量子超級計算，這使其成為完全混合計算環境，非常適合 GQE。據 GQE 聯合作者 Alan Aspuru-Guzik 稱，這些能力將 CUDA-Q 定位為可擴展的標準。

Source

]]>

用于直線 CUDA 圖形和其他性能增強的恒定時間啟動

Wed, 11 Sep 2024 08:11:14 +0000

CUDA Graphs 是一種將 GPU 運算定義為圖形（而非一系列流啟動）并將其批量處理的方法。CUDA Graph 將一組 CUDA 內核和其他 CUDA 運算分組在一起，并使用指定的依賴關系樹執行這些運算。它將與 CUDA 內核啟動和 CUDA API 調用相關的驅動程序活動結合起來，從而加快工作流程。它還可以執行與硬件加速的依賴關系，而不是在可能的情況下僅依賴 CUDA 流和事件。 CUDA 圖形對于 AI 框架尤為重要，因為它們使您能夠捕獲和回放一系列 CUDA 操作，從而降低 CPU 開銷并提高性能。借助最新的改進，您現在可以更好地利用 CUDA 圖形來加速 AI 工作負載。在 CUDA 工具包 11.8 和 CUDA 工具包 12.6 以及隨附的驅動程序版本之間，NVIDIA 在幾個方面提高了 CUDA 圖形的性能：在本文中，

Source

]]>

使用 CRIU 實現 CUDA 應用程序檢查點

Tue, 02 Jul 2024 05:00:48 +0000

CUDA 的檢查點和恢復功能通過名為 cuda-checkpoint 的命令行實用程序公開，該實用程序可用于在正在運行的 Linux 進程中以透明方式檢查點和恢復 CUDA 狀態，同時也可以與開源檢查點實用程序 CRIU（用戶空間中的檢查點/恢復）相結合，以完全檢查點 CUDA 應用程序。透明的每進程檢查點在虛擬機檢查點和應用程序驅動檢查點之間提供了一個中間地帶。每進程檢查點可與容器結合使用，檢查復雜應用程序的狀態，從而促進諸如以下用例。 CRIU(用戶空間中的檢查點／恢復)是適用于 Linux 的開源檢查點實用程序，在 NVIDIA 外部進行維護，可以檢查點和恢復進程樹。 CRIU 通過一個名為并通過檢查點和恢復與進程關聯的每個內核模式資源來運行。這些資源包括：由于這些資源的行為由 Linux 指定，并且獨立于底層硬件，

Source

]]>

具有條件節點的 CUDA 圖的動態控制流

Fri, 10 May 2024 07:40:58 +0000

CUDA 圖可以顯著提高性能，因為驅動程序能夠使用任務和依賴關系的完整描述來優化執行。特別是在靜態工作流中，圖形可以提供難以置信的好處，其創建的開銷可以在多次連續啟動中分攤，從而提高整體性能。然而，幾乎所有的問題都涉及某種形式的決策，這可能需要分解圖并將控制權返回給 CPU，以決定下一步要啟動哪些工作。像這樣分解工作會損害 CUDA 進行優化的能力，占用 CPU 資源，并增加每次圖形啟動的開銷。從 CUDA 12.4 開始，CUDA Graphs 支持條件節點，這使得圖形的部分能夠有條件地或重復地執行，而不需要將控制返回到 CPU。這釋放了 CPU 資源，使得更多的工作流能夠在單個圖形中表示，從而提高了計算效率。條件節點有兩種風格：條件節點是容器節點，類似于子圖節點，但節點中包含的圖的執行取決于條件變量的值。

Source

]]>

量子加速超級計算簡介

Wed, 13 Mar 2024 05:54:39 +0000

開發有用的量子計算是一項涉及政府、企業和學術界的全球性工作。量子計算的優勢可以幫助解決一些與應用程序（如材料模擬、氣候建模、風險管理、供應鏈優化和生物信息學）有關的全球性挑戰。實現量子計算的優勢需要將量子計算機集成到現有的超級計算基礎架構和科學計算工作流程中，并允許領域科學家使用熟悉的語言和熟悉的工具對其進行編程。這種工作流程的普及和開發強大可靠的軟件堆棧正是使 GPU 能夠革新超級計算的關鍵所在。從使加速計算成功的框架開始構建是量子計算從研究項目到助力科學發展的關鍵。這種理念稱為量子加速超級計算。本文提供了關于量子計算機的基礎知識，以及量子加速超級計算如何利用其優勢并解決其弱點的見解。文末還提供了開發者構建可擴展且高性能的量子加速工作流程的一些實際注意事項，這些工作流程將隨著量子計算機的發展而擴展。量子加速超級計算利用量子處理器 (QPU)…

Source

]]>

cuTENSOR 2.0：用于加速張量計算的全面指南

Fri, 08 Mar 2024 07:08:27 +0000

NVIDIA cuTENSOR 是一個 CUDA 數學庫，提供經過優化的張量運算。張量是一種密集的多維數組或數組片段。cuTENSOR 2.0 的發布代表著功能和性能方面的重大更新，這一版本重構了其 API，使其更富有表現力，包括在 NVIDIA Ampere 和 NVIDIA Hopper GPU 架構上實現的出色性能。本文介紹了 cuTENSOR 2.0 庫，以及如何使用其運算。有關更多信息，請參閱系列中的下一篇文章 cuTENSOR 2.0：性能和應用. 雖然張量運算看起來很陌生，但它們描述了許多自然發生的算法。尤其是，這些運算在機器學習和量子化學中十分常見。如果您已經使用 NVIDIA cuBLAS 或 BLAS，cuTENSOR 提供的三個例程可能會讓您感到眼前一亮：主要區別在于，cuTENSOR 可將這些運算擴展到多維度 .

Source

]]>

cuTENSOR 2.0：應用程序和性能

Fri, 08 Mar 2024 06:58:15 +0000

雖然第 1 部分專注于使用全新的 NVIDIA cuTENSOR 2.0 CUDA 數學庫，但本文將介紹其他使用模式，特別是 Python 和 Julia 的使用。我們還將展示基于基準測試的 cuTENSOR 性能在多個應用領域中的表現。本文探討了 cuTENSOR 2.0 的應用程序和性能基準測試。有關更多信息，請參閱系列的第一篇文章：cuTENSOR 2.0：用于加速張量計算的全面指南. 我們提供 Cutensor Python 軟件包，其中包含用于 Einsum 樣式的界面。該包利用 cuTENSOR，可以類似于 PyTorch 和 TensorFlow 的原生 einsum 實現。有關更多信息，請參閱 Installation 部分。例如，cuTENSOR 可以作為 torch.einsum 使用，如下代碼示例所示：

Source

]]>