NVIDIA Quantum 加速量子糾錯研究進程

噪聲是量子計算的著名對手。量子位對最細微的環境干擾很敏感，會迅速導致錯誤累積，并使最簡單的量子算法的結果過于雜亂而沒有意義。

量子糾錯 (QEC) 使用許多噪聲物理量子位來編碼邏輯量子位，從而有效避免噪聲，從而規避此問題。通過對噪聲物理量子位的某些子集反復執行測量來識別誤差，從而產生所謂的誤差綜合征。然后，可以對這些綜合征進行解碼，以推斷錯誤的性質和位置，以便跟蹤并最終修復這些錯誤，從而使量子算法能夠在不損壞的情況下完成。

識別高效的錯誤糾正協議并了解如何大規模實施這些協議，仍然是實現有用的量子計算必須解決的巨大挑戰。前面描述的解碼操作是一項主要挑戰，因為它必須在緊張的時間窗口內準確執行。增加代碼的復雜性可以提高對錯誤的保護，但會給解碼步驟帶來更大的壓力。

解碼意味著，實際且可擴展的量子糾錯需要在硬件架構中仔細集成經典計算資源和量子計算資源，該架構將 QPU 和 GPU 緊密合，同時利用基于內核的編程模型來確保性能。它還需要能夠在量子糾錯研究的許多其他方面充分利用加速計算的庫，包括代碼生成、測試和合成數據生成。

在 GTC 25 上，NVIDIA 宣布推出一系列工具，用于加速所有這些任務，并促進整個生態系統的 QEC 研究。

騰出時間進行解碼

在 QPU 和 AI 超級計算機之間傳輸數據所需的額外時間進一步壓縮了用于解碼的有限時間窗口。如果超級計算機和 QPU 之間的延遲過大，解碼器就沒有時間識別和跟蹤錯誤，從而導致錯誤糾正過程完全失敗。

NVIDIA 和 Quantum Machines 開發了 NVIDIA DGX Quantum 參考架構來解決這一問題 (圖 1) 。DGX Quantum 使 GPU 能夠以低于 4 微秒的超低往返延遲連接到量子硬件，因此可用于校準、控制、解碼和其他關鍵任務。

DGX Quantum 系統將 NVIDIA Grace Hopper 超級芯片與 Quantum Machines 的 OPX 控制系統相結合，在 QPU 和 AI 超級計算機之間提供可擴展的模塊化連接。

A diagram shows the modular DGX Quantum nodes, each connecting a QPU to the GPU supercomputer using a system that combined Quantum Machines’ OPX control system and NVIDIA Grace Hopper superchips. — *圖 1. DGX Quantum 系統*

在 GTC 25 大會上，NVIDIA 和 Quantum Machines 宣布了第一批 DGX Quantum Alpha 客戶，他們將從 4 月開始接收發貨。麻省理工學院、Fraunhofer IAF、Diraq、Academia Sinica 和 Ecole Normale Supérieure de Lyon 的先驅研究人員將率先展示緊密合的 GPU-QPU 系統如何加速量子計算發展。

SEEQC 等量子公司也在致力于開發 QPU 與 GPU 緊密合的解決方案。SEEQC 設計了其 Single Flux Quantum QPU 控制器和 NVIDIA GPUs 之間的全數字鏈路。通過消除關鍵的模擬到數字障礙，連接 QPU 和 AI 超級計算機的帶寬要求從 TB/s 降低到 GB/s，消除了對高帶寬協議的需求。

在 GTC 25 上，SEEQC 宣布推出首個使用此協議的端到端工作流，支持解碼在模擬 QPU 上運行的五量子位重復代碼。使用基于 GPU 的神經網絡解碼器，往返延遲（模擬 QPU 到 GPU 的往返延遲）僅為 6 μs，完全在有效 QEC 的可接受范圍內。

擴展 CUDA-Q QEC 工具箱

NVIDIA 在 GTC 25 上宣布推出 CUDA-Q QEC v 0.2，其中包括用于生成和加速量子低密度奇偶校驗 (qLDPC) 代碼解碼的新工具。

qLDPC 代碼是一類前景良好的 QEC 代碼，可更高效地編碼邏輯單元，同時還能承受相對較高的物理量子位噪聲值。缺點是，qLDPC 代碼往往需要復雜的量子位連接方案，而這更難解碼。這也是我們不斷探索具有更優特性的新 qLDPC 代碼的動力所在。

CUDA-Q QEC 現已與 Infleqtion 庫集成，用于生成新的 qLDPC 代碼及其關聯的奇偶校驗矩陣。您現在可以將這些代碼直接輸入到 CUDA-Q QEC 中，從而簡化復雜的 QEC 實驗，以評估每個生成代碼的優點。

這些實驗的瓶頸仍然是解碼步驟。雖然 QEC 代碼的某些子集存在高效的解碼算法，但在實踐中解決一般的 qLDPC 解碼問題成本過高。

優秀的啟發式解碼方法 (例如 Belief Propagation 和 Order Statistics Decoding (BP+OSD)) 可以隨著糾錯碼大小的增加，僅使用三次縮放的解碼時間來解碼 qLDPC 代碼。

BP+OSD 解碼器分為兩個階段 (圖 2) 。BP 部分是一種傳播本地量子位信息的迭代過程，通常足以解碼與少量錯誤對應的癥狀。更復雜的癥狀需要 OSD，它執行矩陣分解，對最有可能發生的錯誤進行排序。

A diagram shows that syndromes corresponding to few errors are decoded using only BP, while many errors require one or more rounds of OSD. — *圖 2. BP+OSD 解碼器工作流程*

BP+OSD 是評估新 qLDPC 代碼的速度和準確性性能的必要條件，因此 state-of-the-art 的解碼器實現對于加速候選代碼的評估至關重要。

在 GTC 25 上，NVIDIA 宣布推出加速的 BP+OSD 解碼器，現已在 CUDA-Q QEC v0.2 中推出。在 High-threshold 和 low-overhead 容錯量子內存的 [[144,12,12]] 代碼上進行測試后，BP+OSD 解碼器可針對在 NVIDIA Grace Hopper Superchip 上運行的兩種不同電路級錯誤概率 (圖 3) 提供數量級的加速。

更重要的是，NVIDIA 實現對平均綜合癥的解碼時間大約為幾毫秒，這更接近一些商用 QPU 的一致性時間。

A bar chart compares the industry-standard and NVIDIA CUDA-Q QEC implementations of a BP+OSD decoder. The comparison is shown for two circuit noise levels and the NVIDIA decoder is around 30x times faster. — *圖 3. NVIDIA CUDA-Q QEC BP+OSD 解碼器比較 12 輪糾錯 (單綜合征、非批量) 的平均解碼延遲*

在高吞吐量場景中，使用批量解碼更有效地利用 CPU 和 GPU 可以額外將速度提高 40 倍以上。

通過結合使用 Infleqtion 的代碼生成器和 NVIDIA 加速的 BP+OSD 解碼器，CUDA-Q QEC 成為您高效識別和測試新 qLDPC 代碼的強大工具。這意味著您可以將更多時間用于實現 QEC 突破，而無需準備和等待實驗。

使用 CUDA-Q 生成大量噪聲數據

要克服噪聲，必須通過收集和分析捕獲量子噪聲復雜性的大量數據來理解噪聲。模擬提供了一種基于近似噪聲模型生成這些數據的快速且廉價的方法，在許多情況下，研究系統超出了當今實驗的范圍。模擬是實驗的重要補充，通過結合這兩種方法，可以獲得強大而又經濟高效的研究量子噪聲的方法。

CUDA-Q 版本 0.10 通過引入世界上功能最強大的加速噪聲狀態向量和基于張量網絡的量子電路模擬器來解決這一問題。現在，您可以運行多 GPU、多節點模擬，以生成噪聲數據，所需時間和成本僅為使用物理 QPU 或甚至其他模擬器所需時間和成本的一小部分。

NVIDIA 研究人員利用這些功能，通過對預先選定的噪聲運行進行戰略批處理，進一步加快了速度，因此可以從噪聲（Kraus）算子的每個組合中獲取多個數據點（圖 4）。

CUDA-Q 的狀態向量模擬器運行 QuEra 的 35 量子位 magic state distillation 電路 (來自 Experimental Demonstration of Logical Magic State Distillation) ，在 NVIDIA Eos 超級計算機上的 1.2K H100 GPU 節點小時內生成了 1T 次噪點數據。