• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    數據中心/云端

    借助 NVIDIA Grace 系列革新數據中心效率

    到 2025 年,數據處理需求的指數級增長預計將達到 175 ZB。這與 CPU 性能提升的緩慢步伐形成了鮮明的對比。十多年來,半導體的進步跟不上摩爾定律預測的步伐,因此迫切需要更高效的計算解決方案。

    NVIDIA GPU 已經成為滿足這些不斷增長的計算需求的最高效方式。其處理復雜任務和并行處理工作負載的能力使其能夠最大限度地提高每單位能耗所完成的工作,使其能效比傳統 CPU 高 20 倍,適用于各種數據中心工作負載,包括人工智能、高性能計算 (HPC)、數據處理以及視頻和圖像處理。

    隨著越來越多的應用程序得到加速,需要在 CPU 方面進行創新,以更大限度地提高數據中心的效率。加速計算需要從硬件到軟件、平臺和跨多個領域的應用程序的全棧創新,以充分發揮數據中心的潛力。

    NVIDIA 始終如一地提供突破性的 GPU 和網絡。但是,盡管 GPU 在并行工作負載方面表現優異,但執行串行任務仍然需要 CPU。為了在現代 AI 數據中心中充分實現加速,我們需要一種具有以下功能的新 CPU 架構:

    • 高單核性能
    • 巨大的顯存帶寬
    • 低功耗
    • 有足夠的核心來運行所需的服務
    • 出色的連接性,可實現緊密的 GPU 和 CPU 協作

    NVIDIA Grace CPU 是 NVIDIA 為推動 AI 時代而設計的首款 CPU:

    • 72 個高性能、節能高效的 Arm Neoverse V2 CPU 核心
    • NVIDIA Scalable Coherency Fabric (SCF),支持在 CPU 核心、memory 和 I/O 之間快速移動數據
    • 高帶寬、低功耗的 LPDDR5X 顯存
    • 通過 NVIDIA GPU 或 CPU 實現 900 GB/s 一致性 NVLink 芯片到芯片 (C2C) 連接

    NVIDIA Grace CPU 為多個 NVIDIA 產品提供支持。它可以與 NVIDIA Hopper 或 NVIDIA Blackwell GPU 搭配使用,形成一種新型處理器,將 CPU 和 GPU 緊密耦合,以加速生成式 AI、數據處理和加速計算。

    NVIDIA Grace CPU 也是一款出色的獨立數據中心 CPU。它與第二個 NVIDIA Grace CPU 配對,以創建 NVIDIA Grace CPU 超級芯片。該超級芯片采用緊湊的單雙插槽模塊提供,在與領先的傳統 CPU 相同的功率范圍內提供兩倍的性能。

    新一代數據中心 CPU 性能效率

    數據中心受到功率和空間的限制,這意味著基礎設施必須以盡可能低的功耗提供出色的性能。

    NVIDIA Grace CPU 超級芯片可提供出色的性能、內存帶寬和數據移動功能,并在每瓦性能方面處于領先地位,在數據中心的高能效 CPU 計算中實現代際收益。它還為基礎數據中心工作負載(如微服務、數據分析、圖形分析和模擬)提供通用性和性能。

    Bar chart compares the NVIDIA Grace CPU Superchip with the Intel Xeon 8480+ and AMD EPYC 9654 2S servers across a range of application-based workloads with NVIDIA Grace leading on most by up to 2x.
    圖 1.與 x86 2S 服務器對比的 NVIDIA Grace CPU 超級芯片性能
    Bar chart compares the NVIDIA Grace CPU Superchip with the Intel Xeon 8480+ and AMD EPYC 9654 2S server energy efficiency across a range of application-based workloads with NVIDIA Grace leading on most by up to 3x.
    圖 2.NVIDIA Grace CPU 超級芯片的每功率性能(CPU + 內存功率)與 x86 2S 服務器相比

    NVIDIA Grace 超級芯片配備 480GB LPDDR5X,AMD EPYC 9654 搭載 768GB DDR5,以及 Intel Xeon Platinum 8480? 搭載 1TB DDR5。操作系統為 Ubuntu 22.04,編譯器為 GCC 12.3,除非下方另有說明。能效功耗包括 CPU 和內存的測量功耗。

    壓縮:Snappy (提交 af720f9a3b2c831f173b6074961737516f2d3a46 | N 個并行實例) 微服務:Google Protobufs (提交 7cd0b6fbf1643943560d8a9fe553fd206190b27f | N 個并行實例) 地震數據處理:SPECFEM3D four_material_simple_model;HPC SDK 24.3 計算流體力學:OpenFOAM 摩托車 | Large v2212 分子動力學:CP2K RPA 2023.1 氣象:WRF CONUS12 千米 x86:ICC 2024.01;氣候:NEMO Gyre_Pisces v4.2.0 氣象:ICON QUBICC 80 千米分辨率數據分析:HiBench + K-means Spark (HiBench 7.1.1,Hadoop 3.3.3,Spark 3.3.0;Grace:NVHPC 24.5,x86:Intel 2021.4) 圖形分析:差距基準套件 BFS arXiv:1508.03619[cs.DC],2015 年。

    數據可能會發生變化。

    隨著問題集的增長,橫向擴展到多個節點的能力至關重要。NVIDIA Grace CPU 超級芯片還展示了在熱門計算流體動力學(CFD)應用中跨多個節點的性能擴展。

    Bar chart compares the NVIDIA Grace CPU Superchip with the Intel Xeon 8480+ using the OpenFOAM benchmark; scaling from a single server to eight servers. The NVIDIA Grace CPU demonstrates scaling and maintains a 1.6-1.8x lead.
    圖 3.OpenFOAM 上的 NVIDIA Grace CPU 超級芯片多節點擴展

    OpenFOAM v2312 輸入:摩托車 35M 和 68M 單元英特爾 x86 平臺結果在“EoS”上計算,NVIDIA DGX SuperPOD H100 系統操作系統:Ubuntu 22.04 編譯器:2024.0.1 Grace 超級芯片結果在內部 NVIDIA MGX 評估集群上計算,該集群由 16 個 Supermicro MGX ARS-224GL-N 節點組成,配備 NVIDIA Grace 超級芯片 480 GByte 和 NVIDIA InfiniBand Connect-X7 NDR400 操作系統:Ubuntu 22.04 編譯器:GCC 13.10

    客戶勢頭

    客戶正在迅速采用 NVIDIA Grace 系列產品用于生成式 AI、超大規模部署、企業計算基礎架構、高性能計算 (HPC) 和科學計算部署、數據分析、智能邊緣平臺等領域。

    例如,基于 NVIDIA Grace Hopper 的系統可在 HPC 中提供每秒 200 exaflops 的高能效 AI 處理能力。

    以下 HPC 中心均在部署基于 NVIDIA Grace CPU 的系統:

    MurexGurobiPetrobras 等客戶在金融服務、分析和能源垂直行業看到了引人注目的性能結果,這些結果證明了 NVIDIA Grace CPU 和 NVIDIA GH200 解決方案的優勢。

    高性能 CPU 架構

    NVIDIA Grace CPU旨在提供出色的單線程性能、充足的內存帶寬和出色的數據移動能力,同時與傳統的x86解決方案相比,實現了巨大的能效飛躍。

    為了實現高性能和出色能效的結合,NVIDIA Grace CPU 超級芯片采用了許多新開發的架構創新:

    • NVIDIA 可擴展一致性結構
    • 支持 ECC 的服務器級 LPDDR5X
    • Arm Neoverse V2 核心
    • NVLink-C2C

    NVIDIA 可擴展一致性結構

    一個關鍵挑戰是確保所有核心緩存、內存和高速系統 I/O 不會遇到瓶頸,無法充分利用該架構。NVIDIA Scalable Coherency Fabric (SCF) (圖 4) 是 NVIDIA 設計的一種網格結構和分布式緩存架構,旨在以節能高效的方式擴展核心和帶寬。

    NVIDIA SCF 還可在超級芯片配置中的另一個 NVIDIA Grace CPU 或 NVIDIA Grace Hopper 或 NVIDIA Grace Blackwell 配置中,實現 NVIDIA Grace CPU 和 GPU 之間的顯存一致性。

    CPU 核心和 SCF 緩存分區分布在整個網格中,而緩存交換機節點通過fabric路由數據,并充當 CPU、緩存內存和系統 I/O 之間的接口。

    SCF 可提供超過 3.2 TB/s 的總對分帶寬,以保持數據在 CPU 核心、NVLink-C2C、顯存和系統 I/O 之間的流動。SCF 可減少數據移動密集型應用程序中的瓶頸,例如圖形分析,其中 NVIDIA Grace 可提供高達領先 x86 服務器 2 倍的性能。

    Diagram shows the join of Arm Neoverse V2 cores, the distributed cache, and system I/O in a high-bandwidth mesh interconnect.
    圖 4.NVIDIA Grace CPU 和 NVIDIA SCF

    支持 ECC 的服務器級 LPDDR5X

    數據中心 CPU 需要高帶寬、高容量的內存子系統。與此同時,這些內存子系統必須節能高效,以確保為 CPU 核心分配盡可能多的功率。

    NVIDIA Grace CPU 超級芯片使用高達 960 GB 的服務器級低功耗雙數據速率 5 倍 (LPDDR5X) 內存,并帶有糾錯碼 (ECC)。NVIDIA Grace 內存子系統可提供高達 500 GB/s 的帶寬,同時功耗僅約為 15W,遠低于基于標準雙列直插內存模塊 (DIMM) 的設計。

    此設計實現了大規模 AI、HPC 和云工作負載的帶寬、能效、容量和成本的最佳平衡。

    Arm Neoverse V2 核心

    即使 GPU 的并行計算能力不斷提升,工作負載仍然可以通過在 CPU 上運行的串行任務進行門控。為了實現最大限度的工作負載加速,快速高效的 CPU 核心對于系統設計至關重要。

    NVIDIA Grace CPU 的核心是 Arm Neoverse V2 CPU 核心。Neoverse V2 核心經過優化,為每個線程提供行業領先的性能,同時提供比傳統 CPU 更高的能效性。

    NVIDIA Grace CPU 超級芯片將多達 144 個高性能 Arm Neoverse V2 核心與可擴展向量擴展版本 2 (SVE2) 4x128b 單指令多數據 (SIMD) 管線每個核心集成,從而提供最新一代 x86 服務器兩倍的數據中心性能效率。

    為打造具有多達 144 個 Arm Neoverse V2 核心的 NVIDIA Grace CPU 超級芯片,并避免在芯片之間移動數據時出現瓶頸,NVLink Chip-2-Chip (C2C) 互聯技術可在芯片之間提供 900 GB/s 的直接連接。

    典型的服務器架構有兩個插槽,每個插槽由多個裸片組成,每個裸片可表示多達 8 個多個非均勻內存 (NUMA) 域、超過 800W 的 CPU 和內存功率以及節點之間的 500 GB/s 帶寬。

    Grace CPU 超級芯片采用簡潔的顯存拓撲。憑借僅兩個 NUMA 節點、500W 的 CPU 和顯存功率以及 900 GB/s 的高帶寬 NVLink-C2C,Grace CPU 超級芯片有助于為應用程序開發者和用戶緩解 NUMA 瓶頸。

    Diagram shows two monolithic Grace CPU die composed of two NUMA nodes compared with a chiplet-based x86 server that has eight NUMA nodes.
    圖 5.NVIDIA Grace 與 x86 系統架構的比較

    這種連接通過將系統和 HBM GPU 顯存相結合,以提供簡化可編程性的單個顯存地址空間,實現統一的緩存一致性。CPU 和 GPU 之間的這種高帶寬一致性連接可為 GPU 提供超過 600 GB 的快速顯存,是解決復雜的 AI 和 HPC 問題的關鍵。

    NVIDIA Grace Hopper

    隨著 AI 從試點項目發展到主流使用,它越來越多地集成到基于 CPU 的傳統工作流程和企業應用中。這種集成模糊了 CPU 和 GPU 之間的界限,因此需要一種新型的融合加速計算架構來滿足新的計算需求。

    傳統上,加速器通過 PCIe 連接到 CPU,這可能會阻礙數據傳輸,同時處理器擁有獨立的內存池。

    NVIDIA Grace Hopper 架構將 NVIDIA Hopper GPU 的突破性性能與 NVIDIA Grace CPU 的通用性整合到單個超級芯片中,并通過高帶寬、內存一致性的 900 GB/s NVIDIA NVLink Chip-2-Chip (C2C) 互連連接,提供的帶寬是 PCIe Gen 5 的 7 倍。

    NVLink-C2C 內存一致性可以提高開發者的工作效率、性能和 GPU 可訪問的內存量。CPU 和 GPU 線程可以并發和透明地訪問 CPU 和 GPU 駐留內存,使您能夠專注于算法,而不是顯式內存管理。

    Comparison of PCIe accelerated architecture that has separate CPU and GPU memory and a low bandwidth PCIe connection with the NVIDIA Grace Hopper architecture that has a single unified virtual memory pool with a fast NVLink-C2C connection.
    圖 6.NVIDIA Grace Hopper 架構克服 PCIe 瓶頸

    將 CPU 和 GPU 處理相結合的新興工作負載的一個示例是檢索增強生成 (RAG)。由于 RAG 工作負載能夠將 LLM 納入企業知識庫,從而減少模型幻境,因此已在企業中得到采用。

    RAG 需要不斷將內部公司文檔和數字資產轉換為嵌入,然后將其存儲在向量數據庫中,以便在推理階段快速檢索。服務于 RAG 工作負載的企業可以在 CPU 上恢復運行嵌入生成、向量數據庫創建和索引以及工作負載的向量搜索階段,同時為推理階段保留 GPU。

    借助 NVIDIA Grace Hopper,企業可以在統一的加速計算架構上運行 RAG 工作負載的兩個階段。與將 H100 GPU 與傳統的 x86 CPU 相結合的系統相比,在熱門的 Llama 2 70B 模型上,這可將 RAG 工作負載性能提升高達 1.5 倍。

    RAG 工作負載利用 NVIDIA Grace CPU、融合 CPU 和 GPU 顯存以及 900 GB/s NVLink-C2C 的上述性能加速 RAG 工作負載的所有非推理階段,而 NVIDIA Hopper GPU 則加速推理階段。

    除了超級芯片本身的獨特創新之外,NVIDIA Grace Hopper 還采用模塊化 MGX 服務器設計,即 GH200 NVL2,它通過單個服務器中的 NVLink 連接兩個超級芯片,從而簡化主流 LLM 推理的部署和橫向擴展。

    旨在平衡成本效益與用戶體驗的 IT 領導者和決策者通常使用模型分片策略來服務于生產中的主流 LLM。這涉及在由低延遲、高帶寬網絡連接的多個 GPU 上分割單個模型。

    此方法可增加可服務的用戶數量,降低成本,同時確保良好的用戶體驗。它還使組織能夠從較小的設置開始,并隨著需求的增長通過添加 GPU 進行橫向擴展。

    NVIDIA GH200 NVL2 模塊化單節點設計使其成為主流 LLM 模型服務和橫向擴展架構的不二之選。

    通過采用這種新型混合加速Superchips及其新的融合顯存簡化編程模型,IT 領導者和決策者可以通過擴展或改造數據中心,確保奠定堅實的基礎,不僅能滿足傳統串行處理應用程序和 AI 增強應用程序的需求,還能滿足新一代 AI 驅動創新的需求。

    NVIDIA Grace Blackwell

    NVIDIA GB200 NVL72 采用機架級設計,可連接 36 個 NVIDIA Grace CPU 和 72 個 NVIDIA Blackwell GPU,強效助力生成式 AI、數據處理和高性能計算。

    NVIDIA Blackwell 配備 208 億個晶體管和第二代 Transformer 引擎。它支持第五代 NVIDIA NVLink,可將每個 GPU 的雙向吞吐量提高到 1.8 TB/s,為在具有并行性組合的萬億參數模型的多 GPU 部署中發生的 GPU 到 GPU 運算提供無與倫比的加速。

    GB200 NVL72 作為液冷式機架級解決方案提供,具有 72-GPU NVLink 域,可充當單個大型 GPU。這使其能夠在專家 LLM 模型的先進萬億參數混合模型上提供 30 倍的推理速度。

    領先的云服務提供商已宣布采用 NVIDIA Grace Blackwell 的計劃:

    基于 Arm 軟件生態系統構建的標準軟件基礎設施

    所有主要的 Linux 發行版及其提供的大量軟件包均可在 NVIDIA Grace 上完美運行,無需修改。您可以使用操作系統包管理器輕松安裝應用程序、庫、依賴項、實用工具、工具等。

    許多家喻戶曉的封閉和開源應用程序都為 Arm 提供優化的可執行文件。Arm 開發者中心展示了適用于 AI、云、數據中心、5G、網絡和邊緣的精選軟件包。該生態系統由 Arm 標準提供支持,例如 Arm 服務器基本系統架構 (SBSA) 和 Arm SystemReady 認證計劃的基本啟動要求 (BBR)。

    NVIDIA Grace 執行這些標準,并使用熱門的 Neoverse 微架構,因此針對其他廣泛可用的 Arm CPU 的軟件優化也直接使 NVIDIA Grace 受益。有關如何安裝和配置軟件的更多信息,請參閱 NVIDIA Grace 文檔

    The full-stack NVIDIA software ecosystem builds on top of the Arm ServerReady platform and major Linux OS distributions and provides all the tools, compilers, libraries, frameworks, and management capabilities required for a modern data center.
    圖 7.NVIDIA Grace 系列軟件生態系統

    除了更廣泛的 Arm 軟件生態系統外,NVIDIA 軟件生態系統還針對 NVIDIA Grace 提供和優化。NVIDIA HPC SDK 和每個 CUDA 組件都有 Arm 原生安裝程序和容器NGC 還提供針對 Arm 優化的深度學習、機器學習和 HPC 容器。

    NVIDIA 還在積極擴展面向 Arm CPU 的軟件生態系統。最近,NVIDIA 為 Arm CPU 推出了一套新的高性能數學庫,名為 NVIDIA 性能庫 (NVPL)。這些庫是大多數 x86 數學庫的即時替代庫,并且經過高度調整,可更大限度地提高 Grace CPU 性能。

    NVIDIA 還將上游 Arm 優化分發到開源工具 Clang 中,供不想等待常規版本發布但希望構建性能出色的代碼的開發者使用。

    為 Arm 和 NVIDIA Grace 移植和優化軟件

    NVIDIA Grace CPU 是基于標準的設計,與廣泛的 Arm 軟件生態系統完全兼容,因此大多數移植工作已經完成。

    正如本文所述,在 NVIDIA Grace 上使用最佳編譯器標志以原生方式重新編譯應用程序源代碼可以提高應用程序的性能和效率。大多數應用程序都可以使用任何符合標準的現代多平臺編譯器進行編譯,而無需修改應用程序源代碼:

    Large arrow with sections marked off for listing the steps to run software:  reusing existing software, with a recompile using a choice of tools, and then running and optimizing software for optimal performance.
    圖 8.在 NVIDIA Grace 系列上運行的軟件工作正常,并使用現有工具

    以下是在 NVIDIA Grace 上編譯應用程序的基本步驟:

    • 安裝軟件依賴項:使用操作系統的包管理器安裝在任何其他 CPU 上使用的相同編譯器、庫、工具鏈、運行時、框架等。熱門依賴項的所有最新版本均可用于 NVIDIA Grace。
    • 使用符合標準的編譯器:與在任何其他 CPU 上一樣,使用 GCC、Clang 或 NVHPC 編譯器。如果您使用的是供應商特定的編譯器(例如 AOCC),請更新您的構建系統,以調用符合標準的多平臺編譯器(例如 NVHPC)。這些多平臺編譯器也可以在原始系統上使用,從而提高應用程序的可移植性。
    • 優化編譯器標志:刪除所有特定于架構的標志,例如-mavx, -march以及-mtuneGCC 和 Clang,或任何-tpNVHPC 的標志。在其位置,添加標志-mcpu=native適用于 GCC 和 Clang.NVHPC 會自動檢測 NVIDIA Grace 原生編譯,并使用最優標志,因此無需額外的標志。您還可以使用-fltoGCC 和 Clang 的標志。

    按照這些簡單的步驟操作,只需幾分鐘即可為 NVIDIA Grace 生成經過優化的應用程序二進制文件。

    有關應用程序移植和優化的更多信息,請參閱 NVIDIA Grace CPU 基準測試指南。本指南包含在 NVIDIA Grace 上構建和運行常見基準測試(STREAM、HPL、HiBench、protobuf 等)和應用程序(WRF、OpenFOAM、SPECFEM3D、NAMD 等)的精確分步說明。

    它還為開發者提供有關 Arm SIMD 編程、Arm 內存模型的高級指導,以及針對 C/C++、Fortran、Java、Python 和 Rust 的特定語言指導。

    使用本指南幫助您實現特定NVIDIA Grace系統的最佳性能。

    總結

    NVIDIA Grace CPU 專為現代數據中心而設計,具有 72 個高性能 Arm Neoverse V2 核心,這是一種 NVIDIA 設計的高帶寬結構,可以最大限度地提高性能和高帶寬低功耗內存。在相同的功率范圍內,它提供的性能是領先的傳統 CPU 的 2 倍。

    NVIDIA Grace CPU 具有快速的一致鏈路,可與其他 NVIDIA Grace CPU 或 NVIDIA Hopper 或 NVIDIA Blackwell GPU 連接,形成新型處理器,將 CPU 和 GPU 緊密耦合,為生成式 AI、數據處理和加速計算提供強大助力。

    NVIDIA Grace CPU 是基于標準的設計,與廣泛的 Arm 軟件生態系統完全兼容,大多數軟件都將正常工作。

    有關更多信息,請參閱來自 GTC 的 NVIDIA Grace CPU 會議了解更多信息。

    ?

    +1

    標簽

    人人超碰97caoporen国产