使用 NVIDIA Arm HPC 開發套件評估應用程序

NVIDIA Arm HPC 開發者套件?是一個集成的硬件和軟件平臺，用于在異構 GPU 和 CPU 加速計算系統上創建、評估和基準測試 HPC 、 AI 和科學計算應用程序。 NVIDIA 于 2021 3 月宣布上市。

該套件被設計為 HPC 和 AI 應用的下一代 NVIDIA Grace Hopper 超級芯片?的墊腳石。它可用于識別不明顯的 x86 依賴關系，并確保 1H23 中 NVIDIA Grace Hopper 系統?之前的軟件準備就緒。有關詳細信息，請參閱 NVIDIA Grace Hopper 超級芯片白皮書?。

Oak Ridge National Laboratory Leadership Computing Facility （ OLCF ）將 NVIDIA Arm HPC 開發套件集成到其現有的 Wombat Arm cluster 中。應用程序團隊致力于構建、驗證和基準測試幾個 HPC 應用程序，以評估下一代基于 Arm 和 GPU 的 HPC 系統的應用程序準備情況。這些團隊已共同提交了《 IEEE 并行和分布式系統學報》，以供發表，證明 GPU 加速 Arm 系統可用的軟件和工具套件已準備好用于生產環境。要了解更多信息，請參見 Early Application Experiences on a Modern GPU-Accelerated Arm-based HPC Platform 。

OLCF 袋熊集群

Wombat 是一個實驗集群，配備了來自不同供應商的基于 Arm 的處理器。它從 2018 年開始運行。該集群由 OLCF 管理，用戶和研究人員可以自由訪問。

在研究時，集群由三種類型的計算節點組成：

4 個 HPE Apollo 70 節點，每個節點配備雙 Cavium （現為 Marvell ） ThunderX2 CN9980 處理器和兩個 NVIDIA V100 Tensor Core GPUs
16 個 HPE Apollo 80 節點，每個節點配備一個 Fujitsu A64FX 處理器
8 個 NVIDIA Arm HPC 開發套件節點，每個節點配備一個 Ampere Computing Altra Q80 – 30 CPU 和 2 個 NVIDA A100 GPU

這三種類型的節點共享一個基于 TX2 的通用登錄節點，基于 Arm ，所有節點都通過 InfiniBand EDR 和 HDR. 連接

HPC 應用評估

11 個不同的小組開展了評估工作。團隊包括橡樹嶺國家實驗室、桑迪亞國家實驗室、伊利諾伊大學厄巴納 – 香檳分校、佐治亞理工學院、巴塞爾大學、瑞士國家超級計算中心（ SNSC ）、赫爾姆霍茲 – 澤特姆 – 德累斯頓 – 羅森多夫分校、特拉華大學和 NVIDIA 的研究人員。

表 1 總結了應用程序的最終列表及其各種特性。這些應用程序涵蓋八個不同的科學領域，包括用 Fortran 、 C 和 C ++編寫的代碼。使用的并行編程模型有 MPI 、 OpenMP / OpenACC 、 Kokkos 、 Alpaka 和 CUDA 。在移植活動期間，沒有對應用程序代碼進行任何更改。評估過程主要集中于應用程序移植和測試，考慮到測試臺的實驗性質，較少強調絕對性能。

App Name	Science Domain	Language	Parallel Programming Model
ExaStar	Stellar Astrophysics	Fortran	OpenACC, OpenMP offload
GPU-I-TASSER	Bioinformatics	C	OpenACC
LAMMPS	Molecular Dynamics	C++	OpenMP, KOKKOS
MFC	Fluid Dynamics	Fortran	OpenACC
MILC	QCD	C/C++	CUDA
MiniSweep	Sn Transport	C	OpenMP, CUDA
NAMD/VMD	Molecular Dynamics	C++	CUDA
PIConGPU	Plasma Physics	C++	Alpaka, CUDA
QMCPACK	Chemistry	C++	OpenMP offload, CUDA
SPECHPC 2021	Variety of Apps	C/C++/Fortran	OpenMP offload, OpenMP
SPH-EXA2	Hydrodynamics	C++	OpenMP, CUDA

表 1.在 Wombat 試驗臺上評估的應用

本文介紹了其中四個應用程序的結果。要了解有關其他應用程序的更多信息，請參閱 Early Application Experiences on a Modern GPU-Accelerated Arm-based HPC Platform 。

蛋白質結構和功能預測的生物信息學

GPU-I-TASSER 是用于蛋白質結構和功能預測的具有 GPU 能力的生物信息學方法。 I-TASSER 套件通過四個主要步驟預測蛋白質結構。其中包括螺紋模板識別、迭代結構裝配模擬、模型選擇和優化。最后一步是基于結構的函數注釋。結構折疊和重組階段通過復制品交換蒙特卡羅模擬進行。

Bar chart comparing the performance of GPU-I-TASSER on Wombat and Summit. — *圖 1.GPU-I-TASSER 在 Wombat 和 Summit 上的表現*

圖 1 顯示了 Wombat 的 ThunderX2 和 AmpereAltra 處理器以及 NVIDIA A100 和 V100 GPU 相對于 Summit 上的 POWER9 處理器的性能。對于 Ampere Ultra 、 NVIDIA V100 和 A100 ，分別觀察到 1.8 倍、 6.9 倍和 13.3 倍的加速。

物理問題的流體流求解器

Multi-component Flow Code （ MFC ）是一個開源的流體流求解器，它為各種物理問題提供高階精確的解決方案，包括多相可壓縮流和子網格分散。

表 2 顯示了不同硬件的平均時鐘時間和相對性能指標。時間列幾乎沒有絕對意義，相對性能是最有意義的（也顯示在最后一列）。所有比較都使用 NVHPC v22.1 或 GCC v11.1 編譯器，如圖所示。 CPU 壁時鐘時間通過每個芯片的 CPU Core 的數量進行歸一化。結果表明，在 Summit 上， A100 GPU 比 V100 快 1.72 倍。

?	Compiler	Time (sec)	Speedup
NVIDIA A100	NVHPC	0.28	15.71
NVIDIA V100	NVHPC	0.5	8.80
2xXeon 6248	NVHPC	2.7	1.63
2xXeon 6248	GCC	2.1	2.10
Ampera Altra	NVHPC	3.9	1.13
Ampera Altra	GCC	2.7	1.63
2xPOWER9	NVHPC	4.4	1.00
2xPOWER9	GCC	3.5	1.26
2xThunderX2	NVHPC	21	0.21
2xThunderX2	GCC	5.4	0.81
A64FX	NVHPC	4.3	1.02
A64FX	GCC	13	0.34

表 2.各種架構上每個時間步長的墻上時鐘時間的比較。粗體表示使用 NVIDIA Arm HPC 開發套件硬件

NAMD 和 VMD 用于生物分子動力學模擬和可視化

NAMD 和 VMD 是用于分子動力學模擬（ NAMD ）和制備、分析和可視化（ VMD ）的生物分子建模應用。研究人員使用 NAMD 和 VMD 研究生物分子系統，包括單個蛋白質、大型多蛋白復合物、光合細胞器和整個病毒。

表 3 顯示， NAMD 在 A100 上的模擬速度比 V100 快 50% 。 Cavium ThunderX2 和 IBM POWER9 之間的性能相似，后者得益于 CPU 和 GPU 之間的低延遲 NVIDIA NVLink 連接。

CPU	GPU	Compiler	Perf (ns/day)
2x EPYC 7742	A100-SXM4	GCC	187.5
1x Ampera Altra	A100-PCIe	GCC	182.2
2x Xeon 6134	A100-PCIe	ICC	181.4
2x POWER9	V100-NVLINK	XLC	125.7
2x ThunderX2	V100-PCIe	GCC	124.9

表 3.1M 原子 STMV 模擬的 NAMD 單 GPU 性能，具有 12A 截止的 NVE 系綜，剛性鍵約束，具有 2fs 快速時間步長的多時間步進，以及 PME 的 4fs 。粗體表示使用 NVIDIA Arm HPC 開發套件硬件

對于 VMD ，表 4 中的 GPU 加速結果顯示了與現有 CPU 平臺相比， GPU 提供的更高峰值算術吞吐量和內存帶寬帶來的性能增益。 GPU 分子軌道結果突出了 GPU 的性能和宿主 – GPU 互連帶寬。

CPU	Compiler	SIMD	Time (sec)
AMD TR 3975WX	ICC	AVX2	1.32
AMD TR 3975WX	ICC	SSE2	2.89
1x Ampere Alta	ArmClang	NEON	1.35
2x ThunderX2	ArmClang	NEON	3.02
A64FX	ArmClang	SVE	4.15
A64FX	ArmClang	NEON	13.89
2x POWER9	ArmClang	VSX	6.43

表 4.各平臺上 VMD 分子軌道運行時間的比較。粗體表示使用 NVIDIA Arm HPC 開發套件硬件。

qmcp 包

QMCPACK 是一個開源、高性能的量子蒙特卡羅（ QMC ）軟件包，使用多種統計方法解決多體薛定諤方程。可以系統地測試和減少 QMC 中所做的幾個近似值，與密度泛函理論等更廣泛使用的方法相比，這可能會使預測中的不確定性得到量化，但會犧牲大量的計算費用。

應用包括弱結合分子、二維納米材料和固態材料，如金屬、半導體和絕緣體。

Graph showing QMCPACK DMC throughput for Wombat and Summit nodes as a function of the number of electrons in the NiO benchmark. — *圖 2.Wombat 和 Summit 節點的 QMCPACK DMC 吞吐量與 NiO 基準中電子數量的關系*

如圖 2 所示，在 Wombat 上運行的單個 A100 GPU 的性能優于 V100 ，幾乎所有問題大小的吞吐量都顯著提高。 Wombat 的 A100 2 GPU 在最大和最具計算挑戰性的情況下性能顯著提高。對于這些系統大小，更大的 GPU 內存是提高性能的最重要因素。

NVIDIA Arm HPC 開發套件評估結果

作為 Wombat 集群的一部分，與 NVIDIA Arm HPC Developer Kit 合作的研究團隊表示，“在我們部署包含 NVIDIA V GPU 的 Wombat 測試臺節點時，我們發現通過 Arm Server Ready 固件操作系統、軟件、庫和最終用戶包的跨堆棧貢獻，通用集群設置變得更容易。”

他們補充道：“本研究中測試的許多 GPU 加速應用程序的大部分性能來自為 GPU 架構優化的應用程序內核。”。“這并不能否定測試新 Arm 和 GPU 平臺的重要性。我們注意到，最大的限制似乎與有限的 GPU 內存大小以及用于遷移和保存 GPU 加速器附近數據的機制有關。”

NVIDIA Grace Hopper 系統之路

NVIDIA Arm HPC Developer Kit 旨在為客戶提供一個穩定的硬件和軟件平臺，用于 Arm 生態系統中加速 HPC 、 AI 和科學計算應用程序的開發和性能分析。 NVIDIA Grace Hopper Superchip 將 72 臂 Neoverse V2 CPU 內核的極高單線程性能與下一代 NVIDIA Hopper H100 GPU 相結合，為 HPC 和 AI 應用提供無與倫比的性能。 NVIDIA Grace Hopper Superchip 創新之處在于通過 NVLink-C2C 將 CPU 連接到 GPU ，這比 PCIe Gen5 快 7 倍，并通過 LPDDR5X 和 HBM3 內存支持 3.5 TB / s 的內存帶寬。

NVIDIA Grace Hopper Superchip 已經被領先的 HPC 客戶采用，包括瑞士國家超級計算中心（ CSCS ）、洛斯阿拉莫斯國家實驗室（ LANL ）和阿卜杜拉國王科技大學（ KAUST ）。

基于 NVIDIA Grace Hopper Superchip 的系統將于 2023 年上半年從領先的原始設備制造商處獲得。有興趣率先將應用程序遷移到 Arm 生態系統的客戶仍可從 Gigabyte Systems 購買 NVIDIA Arm HPC Developer Kit 。

要了解更多有關 NVIDIA Grace Hopper 架構如何提供下一代性能和易于編程的信息，請參閱 NVIDIA Grace Hopper Superchip Architecture whitepaper 。

使用 NVIDIA Arm HPC 開發套件評估應用程序

OLCF 袋熊集群

HPC 應用評估

蛋白質結構和功能預測的生物信息學

物理問題的流體流求解器

NAMD 和 VMD 用于生物分子動力學模擬和可視化

qmcp 包

NVIDIA Arm HPC 開發套件評估結果

NVIDIA Grace Hopper 系統之路

相關資源

標簽

關于作者

使用 NVIDIA Arm HPC 開發套件評估應用程序

OLCF 袋熊集群

HPC 應用評估

蛋白質結構和功能預測的生物信息學

物理問題的流體流求解器

NAMD 和 VMD 用于生物分子動力學模擬和可視化

qmcp 包

NVIDIA Arm HPC 開發套件評估結果

NVIDIA Grace Hopper 系統之路

相關資源

標簽

關于作者

相關文章

NVIDIA Hopper 深入研究架構

相關文章

使用 NVIDIA Holoscan 3.0 中的動態流控制輕松構建邊緣 AI 應用

借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能

NVIDIA 展示用于游戲 AI 推理和簡化實操機會的 GeForce NOW

NVIDIA 虛擬 GPU 18.0 可在每個虛擬化平臺上實現適用于 AI 的 VDI

AI 模型為環保人士提供大規模保護漁業和野生動物的新工具