NVIDIA CUDA-Q 新功能提升量子應用程序性能

NVIDIA CUDA-Q（前身為 NVIDIA CUDA Quantum）是一個開源編程模型，旨在構建量子加速超級計算，充分發揮 CPU、GPU 和 QPU 的計算能力。由于開發這些應用程序具有挑戰性，需要一個易于使用的編碼環境，能夠提供強大的量子模擬能力，以有效評估和提高新算法的性能。

CUDA-Q 包括許多顯著提高性能的新功能，使用戶能夠突破經典超級計算機上模擬的極限。這篇文章展示了 CUDA-Q 在量子模擬中的性能增強，并簡要解釋了這些改進。

提高性能

計算期望值是變分量子本征求解器（VQE）應用中的主要量子任務。您可以使用 observe 作用來確定兩個小分子（C₂H₂ 和 C₂H₄）的期望值。實驗使用標準的 UCCSD 模擬，并使用 Python 進行編寫。

對于每個版本（v0.6、v0.7、v0.7.1），我們測試了三個狀態向量模擬器后端：nvidia（單精度）、nvidia-fp64（雙倍精度）和nvidia-mgpu（nvidia-fp64具有柵極融合）。特別是，nvidia-mgpu指定的門融合級別以前是硬編碼為 6，現在則是 v0.7.1 中的可調參數。

Gate Fusion 是一種優化技術，將連續的量子門組合或合并為單個門，以降低總體計算成本并提高電路效率。組合的門的數量（門融合級別）對模擬性能具有顯著影響，需要針對每個應用程序進行優化。您現在可以調整 CUDA_MGPU_FUSE參數并指定不同于 v0.7.1 默認值 4 的自定義門融合級別，以滿足特定應用程序的需求。

The image shows a comparison of the performance of different versions of the NVIDIA CUDA-Q software development kit (SDK) for quantum computing. The SDK is used to develop and run quantum computing applications on NVIDIA GPUs. The image shows that the latest version of the SDK, version 0.7.1, offers significant performance improvements over previous versions. For example, on a 24-qubit system, the latest version of the SDK is up to 7 times faster than the previous version. On a 28-qubit system, the latest version of the SDK is up to 4.7 times faster than the previous version. These performance improvements are due to a number of factors, including improvements to the compiler, the runtime system, and the libraries. — *圖 1。10 的執行次數`observe`24 和 28 量子位 UCCSD-VQE 實驗中的調用*

圖 1 顯示了使用 NVIDIA H100 GPU 的每個模擬器和 CUDA-Q 版本的運行時。兩個沒有門融合的模擬器經歷了從 v0.6 到 v0.7.1 的至少 2 倍的加速。

這個nvidia-mgpu-6v0.7.1 模擬器的結果分別比 24 和 28 量子位實驗的 v0.6 結果快 3.2 倍和 4.7 倍。通過調整門融合級別，性能分別提高了 12 倍和 1.2 倍，這表明該參數的重要性和系統依賴性。

這個nvidia-mgpu模擬器將成為新的默認版本，從 v0.8 開始（尚未發布），提供最佳的整體性能，并使多個 GPU 能夠立即用于許多量子位模擬任務。

加速代碼

CUDA-Q v0.7 包括許多增強功能，這些功能改進了編譯速度，并縮短了連續編譯所需的時間，特別是在 observe 調用中（圖 2）。

首先，改進了實時（JIT）編譯路徑，以更有效地編譯內核。以前，此過程按電路中門的數量進行二次縮放，但被簡化為線性縮放。

Graph showing that there have been a number of significant improvements to the performance of the JIT compiler. These improvements have resulted in a significant reduction in the amount of time it takes to compile and execute code. — *圖 2:表示 CUDA-Q v0.7 和 v0.7.1 中包含的更改以及對四個版本的運行時改進`observe`電話*

其次，對 JIT 更改檢測的哈希改進減少了檢查是否有任何代碼因環境更改而需要重新編譯所需的時間。這實際上消除了每次檢查所需的時間，例如在observe呼叫中。

最后，v0.6 將對每個調用執行所有日志處理，而不管指定的日志級別如何。v0.7 中對此進行了更改，僅對指定的日志級別執行必要的處理。

除了 Gate Fusion 之外，0.7.1 版本還引入了自動漢密爾頓批處理（圖 3），這進一步減少了 observe 調用次數，通過在單個 GPU 上啟用批量 Hamiltonian 求值，從而提高了計算效率。

Graph showing that Hamiltonian batching greatly reduces the time spent computing the Hamiltonian elements while leaving the time to execute the base circuit unchanged. — *圖 3。Hamiltonian 分批加速的表示*

為了進一步提高性能，未來的版本將包括對狀態準備、泡利算子的處理和酉合成的更多增強。

開始使用 CUDA-Q

目前和預期的 CUDA-Q 改進為開發人員提供了一個更高性能的平臺來構建量子加速超級計算應用程序。今天，不僅開發速度加快，而且在 CUDA-Q 上構建的應用程序可以部署在實際量子計算所需的混合 CPU、GPU 和 QPU 環境中。

通過 CUDA-Q 快速入門指南，您可以快速設置環境。然后，基礎部分將指導您完成第一次編寫 CUDA-Q 應用，并探索代碼示例和應用，以獲得量子應用程序開發的靈感。最后，如果您想提供反饋和建議，請訪問 NVIDIA/cuda-quantum GitHub 回購。

NVIDIA CUDA-Q 新功能提升量子應用程序性能

提高性能

加速代碼

開始使用 CUDA-Q

相關資源

標簽

關于作者

NVIDIA CUDA-Q 新功能提升量子應用程序性能

提高性能

加速代碼

開始使用 CUDA-Q

相關資源

標簽

關于作者

相關文章

CUDA Quantum 0.5 為量子經典計算提供新功能

相關文章

AI 模型為環保人士提供大規模保護漁業和野生動物的新工具

使用 DeepSeek-R1 NIM 構建具有專家推理功能的 AI 智能體

在 NVIDIA GPU 上訓練的 Microsoft Phi SLM 的多模態最新進展

在 NVIDIA 視頻編解碼器 SDK 13.0 中使用 MV-HEVC 啟用立體和 3D 視圖

NVIDIA GTC 2025 上的人工智能促進氣候、能源和生態系統復原力