Multi-GPU – NVIDIA 技術博客

GROMACS 2023 中的 CUDA 圖指南

Fri, 14 Apr 2023 03:39:26 +0000

GPU 隨著新一代的出現而不斷加快，通常情況下 GPU 上的每個活動（如內核或內存拷貝）都會很快完成。在過去，每個活動都必須由 CPU 單獨安排（啟動），相關的開銷可能會累積起來，成為性能瓶頸。 CUDA Graphs功能通過將多個 GPU 活動安排為單個計算圖來解決這個問題。這篇文章描述了 CUDA Graphs 最近是如何被GROMACS，是一個用于生物分子系統的模擬包，也是世界上使用率最高的科學軟件應用程序之一。我們將介紹 CUDA Graphs 和 GROMACS ，描述我們將 CUDA Graphs 集成到 GROMACS （以及與 GROMACS 共同設計）中的工作，展示性能結果，并向您展示如何在 GROMACS 中使用 CUDA Graphs 經過 NVIDIA 和core GROMACS developers，以充分利用現代 GPU 加速服務器。有關更多詳細信息，

Source

]]>

利用碳捕獲和存儲數字孿生實現凈零戰略

Thu, 06 Apr 2023 02:57:57 +0000

一氧化碳捕獲和儲存技術捕獲 CO2從其生產來源，對其進行壓縮，通過管道或船舶運輸，并將其儲存在地下。 CCS 使各行業能夠大幅降低 CO2是幫助工業制造商實現凈零排放目標的有力工具。在許多重工業過程中，溫室氣體（ GHG ）排放無法在規定的時間內避免，必須使用 CCS 解決方案，如水泥、化肥和化工行業。在全球范圍內減少溫室氣體排放的情景突出了 CCS 在能源組合中的作用。為了達到 2 ° C 的目標，根據IEA’s sustainable development scenario，超過 1000 萬噸 CO2到 2030 年，每年都必須進行儲存，從現在到 2050 年，必須部署大量 CCS 裝置。如今，約有 30 個大型裝置投入運行，注入了約 4000 萬噸 CO2每年。這項技術的發展將在未來十年迅速增長，但這一有前景的解決方案尚未證明它可以以可接受的成本實現工業化。

Source

]]>

NVIDIA HPC SDK v22.11 現已提供新的異步編程模型庫

Thu, 17 Nov 2022 11:06:00 +0000

為慶祝 SuperComputing 2022 國際會議， NVIDIA 宣布發布 HPC 軟件開發工具包（ SDK ） v22.11 。 NVIDIA 開發者計劃的成員可以免費下載。 NVIDIA HPC SDK 是一套面向高性能計算（ HPC ）開發人員的編譯器、庫和工具。它提供了開發人員高效開發高性能應用程序所需的一切。 HPC SDK 及其組件每年都會進行多次更新，包括新功能、性能提升和其他增強。除了通常的修復和增強之外，新的 v22.1 版本還為您提供了一個創新的庫的預覽，該庫旨在標準化 C ++異步。該庫使開發人員能夠編寫不特定于 CPU 或 GPU 機器的高級算法代碼，從而提高了程序員的生產力和應用程序的可移植性。庫引入了異步調度工作的能力，這導致了比現有 C ++并行算法更好的資源利用率和性能。這實現了細粒度的執行控制、最小化延遲，

Source

]]>

使用 Arm CPU 為 NVIDIA 認證企業系統供電

Wed, 28 Sep 2022 08:19:00 +0000

組織在人工智能的使用方面正迅速變得更加先進，許多組織正在尋求利用最新技術來最大限度地提高工作負載性能和效率。當今最流行的趨勢之一是使用基于 Arm 體系結構的 CPU 構建數據中心服務器。為了確保這些新系統為企業準備并進行最佳配置， NVIDIA 批準了第一個具有 Arm CPU 和 NVIDIA GPU 的 NVIDIA -Certified systems 。這篇文章介紹了 NVIDIA 認證的 Arm 系統的優點，以及客戶在不久的將來會看到什么。基于手臂的系統在邊緣應用中很常見。它們已經被大型云服務提供商廣泛使用，并開始在數據中心應用程序中變得越來越流行。根據 Gartner ®的數據，到 2025 年，高性能計算（ HPC ） 12% 的新服務器將基于 Arm 。1. 基于 Arm 體系結構的系統能夠以高能效運行多個內核，同時具有高內存帶寬和低延遲。

Source

]]>

使用第三代 NVIDIA NVSwitch 升級多 GPU 互連

Tue, 23 Aug 2022 03:40:00 +0000

人工智能和高性能計算（ HPC ）正在推動對每個 GPU 之間具有高速通信的更快、更可擴展互連的需求。這個第三代 NVIDIA NVSwitch 設計用于滿足這種通信需求。最新的 NVSwitch 和 H100 張量核心 GPU 使用第四代 NVLink ，這是 NVIDIA 最新的高速點對點互連。第三代 NVIDIA NVSwitch 旨在為 NVLink 交換機系統提供節點內或節點外部 GPU 的連接。它還將硬件加速與多播和 NVIDIA 可擴展分層聚合和縮減協議（ SHARP ）在網絡縮減中。 NVIDIA NVSwitch 也是 NVLink 開關網絡設備，允許創建最多連接 256 個的群集 NVIDIA H100 Tensor Core GPUs 以及 57.6TB / s 的全對全帶寬。與 NVIDIA 安培架構 GPU 上的 HDR…

Source

]]>

使用 FasterTransformer 和 Triton 推理服務器部署 GPT-J 和 T5

Wed, 03 Aug 2022 02:41:00 +0000

這是關于 NVIDIA 工具的兩部分系列的第二部分，這些工具允許您運行大型Transformer模型以加速推理。有關 NVIDIA FasterTransformer 庫（第 1 部分）的介紹，請參閱使用 FasterTransformer 和 Triton 推理服務器加速大型 Transformer 模型的推理這篇文章是大型Transformer模型（例如 EleutherAI 的 GPT-J 6B 和 Google 的 T5-3B）的優化推理指南。這兩種模型在許多下游任務中都表現出良好的效果，并且是研究人員和數據科學家最常用的模型之一。 NVIDIA Triton 中的 NVIDIA FasterTransformer (FT) 允許您以類似且簡單的方式運行這兩個模型，同時提供足夠的靈活性來集成/組合其他推理或訓練管道。

Source

]]>

通過全棧創新推動高性能計算

Wed, 01 Jun 2022 07:42:18 +0000

高性能計算（HPC）已成為科學發現的基本工具。無論是發現新的拯救生命的藥物，對抗氣候變化，還是創建精確的世界模擬，這些解決方案都需要巨大且快速增長的處理能力。它們越來越超出傳統計算方法的范圍。這就是為什么業界接受 NVIDIA GPU加速計算的原因。與人工智能相結合，它為科學進步帶來了性能上百萬倍的飛躍。如今，2700個應用程序可以從 NVIDIA GPU 的加速中受益，而且這個數字在不斷增長的300萬開發者社區的支持下繼續上升。要在整個 HPC 應用程序范圍內實現數倍的加速，需要在堆棧的各個級別進行不懈的創新。這從芯片和系統開始，一直到應用程序框架本身。 NVIDIA 平臺每年都在繼續提供顯著的性能改進，在體系結構和整個 NVIDIA 軟件堆棧方面都取得了不懈的進步。與六年前發布的 P100 相比， H100 Tensor Core GPU…

Source

]]>

用 Fortran 標準并行編程實現 GPU 加速

Fri, 27 May 2022 07:25:00 +0000

這是標準并行編程系列的第四篇文章，旨在指導開發人員在標準語言中使用并行來加速計算的優勢：標準語言已經開始添加編譯器可用于加速 GPU 和 CPU 并行編程的功能，例如 Fortran 中的循環和數組數學內部函數。使用標準語言特性有許多優點，主要優點是未來的可驗證性。由于 Fortran 的是一種標準語言功能，因此將來失去支持的可能性很小。這個特性在初始代碼開發中使用起來也相對簡單，并且增加了可移植性和并行性。在初始代碼開發中使用有助于鼓勵您在編寫和實現循環時從一開始就考慮并行性。對于初始代碼開發，是添加 GPU 支持的好方法，無需學習指令。然而，即使是已經通過使用 OpenACC 和 OpenMP 等指令進行 GPU 加速的代碼，也可以從重構到標準并行性中獲益，原因如下： POT3D 是一個 Fortran 代碼，它使用表面場觀測值作為輸入，

Source

]]>

多個 GPU 標準 C ++并行編程，第 2 部分

Mon, 18 Apr 2022 03:27:00 +0000

這是標準并行編程系列的第三篇文章，講述在標準語言中使用并行性來加速計算的優點。在第 1 部分中，我們解釋了：在這篇文章中，我們繼續優化 ISOC ++算法的性能，然后使用 MPI 來跨多個 GPU 來縮放應用。期望 CPU 到 GPU 端口的性能低于專用 HPC 代碼的性能似乎很自然。畢竟，您受到軟件體系結構、已建立的 API 的限制，以及考慮用戶群期望的復雜額外功能的需要。不僅如此， C ++標準并行化的簡單編程模型允許比專用語言（如 CUDA ）更少的手動微調。在現實中，通常可以將這種性能損失控制和限制到可以忽略不計的程度。關鍵是分析各個代碼部分的性能指標，消除不能反映軟件框架實際需求的性能瓶頸。一個好的做法是為數值算法的核心組件維護一個單獨的原理證明代碼。這種方法的性能可以更自由地優化，并與完整、復雜的軟件框架（如 Palabos…

Source

]]>

多個 GPU 標準 C ++并行編程，第 1 部分

Mon, 18 Apr 2022 03:12:00 +0000

這是標準并行編程系列的第二篇文章，講述在標準語言中使用并行性來加速計算的優點。將應用程序移植到 GPU 的難度因情況而異。在最佳情況下，您可以通過調用現有的 GPU 優化庫來加速關鍵代碼部分。例如，當模擬軟件的構建塊由 BLAS 線性代數函數組成時，可以使用 cuBLAS 對其進行加速。但在許多代碼中，你不能四處做一些手工工作。在這些場景中，您可以考慮使用特定于域的語言，例如 CUDA 來針對特定的加速器。或者，您可以使用基于指令的方法，如 OpenMP 或 OpenACC ，以保持原始語言，并使用相同的代碼針對主機和各種類型的設備。隨著本機形式的并行在C++、FORTRAN和 Python 編程語言的現代版本中的出現，現在可以利用類似的高級方法而不需要語言擴展。我們的重點是 C ++語言，它作為 C ++ 17 標準，

Source

]]>

多節點多 GPU ：大規模使用 NVIDIA cuFFTMp FFT

Thu, 27 Jan 2022 05:41:00 +0000

今天，NVIDIA 宣布發布 Early Access （ EA ）的 cuFFTMp 。 cuFFTMp 是 cuFFT 的多節點、多進程擴展，使科學家和工程師能夠在 exascale 平臺上解決具有挑戰性的問題。 FFTs （ Fast Fourier Transforms ）廣泛應用于分子動力學、信號處理、計算流體力學（ CFD ）、無線多媒體和機器學習等領域。有了 cuFFTMp ， NVIDIA 現在不僅支持單個系統中的多個 GPU ，還支持跨多個節點的多個 GPU 。圖 1 顯示， cuFFTMp 達到 1.8 PFlop / s 以上，超過該規模轉換峰值機器帶寬的 70% 。在圖 2 中，問題大小保持不變，但 GPU 的數量從 8 增加到 2048 。可以看到， cuFFTMp 成功地擴展了問題，將單精度時間從 8 GPU （ 1 個節點）的…

Source

]]>