發布 – NVIDIA 技術博客

NVIDIA cuDSS 提高工程和科學計算中的求解器技術

Tue, 25 Feb 2025 08:54:08 +0000

NVIDIA cuDSS 是第一代稀疏直接求解器庫，旨在加速工程和科學計算。cuDSS 正越來越多地應用于數據中心和其他環境，并支持單 GPU、多 GPU 和多節點（MGMN）配置。 cuDSS 已成為加速多個領域 (例如結構工程、流體動力學、電磁學、電路模擬、優化和 AI 輔助工程問題) 的計算機輔助工程 (CAE) 工作流程和科學計算的關鍵工具。本文重點介紹了 cuDSS v0.4.0 和 cuDSS v0.5.0 中提供的一些關鍵性能和可用性功能 (如表 1 中總結的內容)，cuDSS v0.4.0 可顯著提升分解和求解步驟的性能，同時還引入了一些新功能，包括內存預測 API、自動混合內存選擇和可變批量支持。cuDSS v0.5.0 增加了主機執行模式，這對較小的矩陣特別有利，并且在分析階段使用混合內存模式和主機多線程實現了顯著的性能提升，

Source

]]>

使用 NVIDIA AI Workbench 簡化本地和云系統之間的協作

Wed, 05 Feb 2025 04:39:30 +0000

NVIDIA AI Workbench 是一款免費的開發環境管理器，用于在 GPUs 上開發、定制 AI 應用并對其進行原型設計。AI Workbench 為 AI、數據科學和機器學習 (ML) 項目提供跨 PCs、工作站、服務器和云的順暢體驗。用戶體驗包括：本文詳細介紹了 2025 年 1 月發布的 NVIDIA AI Workbench，包括以下新集成和功能：根據最近 Dell 和 NVIDIA HackAI Hackathon 的反饋，用戶希望通過 AI Workbench 輕松訪問云 GPU。這一切現已成為可能，得益于 NVIDIA AI Workbench 和 NVIDIA Brev 之間的合作。NVIDIA Brev 是一個 AI 開發平臺，可讓您在云端運行、構建、訓練和部署 ML 模型。此 AI Workbench 版本首次與 Brev…

Source

]]>

CUDA 工具包現已支持 NVIDIA Blackwell 架構

Fri, 31 Jan 2025 04:55:11 +0000

CUDA 工具包的最新版本 (版本 12.8) 使用最新的 NVIDIA CPU 和 GPU，持續提升數據科學、AI、科學計算以及計算機圖形和模擬領域的加速計算性能。本文重點介紹了此版本包含的一些新功能和增強功能： CUDA 工具包 12.8 是該工具包的第一個版本，在整個開發者工具套件 (包括性能工具和分析器、庫和編譯器) 中支持 NVIDIA Blackwell 架構。Blackwell 由 208 億個晶體管構建而成，是 NVIDIA Hopper GPU 中晶體管數量的 2.5 倍以上，是迄今為止最大的 GPU。 Blackwell 支持的主要功能包括：Key Blackwell 如需詳細了解 NVIDIA Blackwell 的領先創新，請參閱 NVIDIA Blackwell 架構技術概覽。借助 Blackwell，

Source

]]>

NVIDIA 集合通信庫 2.23 促使新的縮放算法和初始化方法的誕生

Fri, 31 Jan 2025 04:47:14 +0000

NVIDIA 集合通信庫 (NCCL) 可實現針對 NVIDIA GPU 和網絡進行優化的多 GPU 和多節點通信基元。NCCL 是多 GPU 深度學習訓練軟件的核心部分。它可以處理任何類型的 GPU 間通信，無論是通過 PCI、NVLink 還是網絡進行通信。它采用先進的拓撲檢測、優化的通信圖形和調整模型，可在 NVIDIA GPU 平臺上直接獲得開箱即用的最佳性能。在本文中，我們將討論 NCCL 2.23 中發布的新功能和修復程序。查看 NVIDIA/nccl Github 存儲庫。 NVIDIA Magnum IO NCCL 是一個旨在優化 GPU 間和多節點通信的庫，對于 AI 和高性能計算 (HPC) 應用中的高效并行計算至關重要。此版本的價值在于其新功能：以下各節將深入探討新功能的詳細信息： PAT 算法是 Bruck 算法的變體，

Source

]]>

RAPIDS 24.12 推出基于 PyPI 的 cuDF、適用于 Polar 的 CUDA 統一內存和更快的 GNN

Thu, 19 Dec 2024 08:59:13 +0000

RAPIDS 24.12 將 cuDF 包引入 PyPI，加快了聚合和從 AWS S3 讀取文件的速度，在 Polars GPU 引擎中支持大于 GPU 內存的查詢，并加快了真實圖形的圖形神經網絡 (GNN) 訓練速度。從 24.12 版本的 RAPIDS 開始，、、的 CUDA 12 版本及其所有依賴項現在均可在 PyPI 上使用。因此，安裝這些庫不再需要使用和的其他配置。試用：這也意味著 Polars 用戶無需再在安裝期間指定額外的索引即可獲得 GPU 支持：即可正常工作。這是通過 pypi.org 提供 RAPIDS 庫的持續努力的第一步。敬請關注，了解更多信息。我們與 Polars 一起在 Open Beta 中推出了基于 cuDF 構建的 Polars GPU 引擎，

Source

]]>

NVIDIA JetPack 6.1 通過攝像頭堆棧優化和固件 TPM 實現性能和安全性提升

Thu, 21 Nov 2024 08:15:33 +0000

NVIDIA JetPack 不斷演進，為滿足邊緣 AI 和機器人開發者的不斷增長需求提供最新的軟件。每個版本中，JetPack 都會增強性能，引入新功能，并優化現有工具，為用戶提供更大的價值。這意味著，您現有的基于 Jetson Orin 的產品可以通過升級到最新版本的 JetPack 體驗到性能優化。 JetPack 6 于 2023 年第三季度發布，標志著這一進程中的一個重要里程碑。它引入了強大的功能，如自帶內核（Bring Your Own Kernel），提供了靈活性，可以引入任何 LTS Linux 內核，并擴展了對更廣泛的 Linux 發行版的支持，為不同的開發環境提供了更大的靈活性。它采用模塊化設計，無需升級 Jetson Linux ，即可輕松升級到最新的 JetPack 計算堆棧。伴隨這些進步，性能改進（包括增強的硬件加速）可確保…

Source

]]>

借助 NVIDIA JetPack 6.0 助力邊緣云原生微服務，現已正式發布

Tue, 04 Jun 2024 07:34:51 +0000

NVIDIA JetPack SDK 為 NVIDIA Jetson 模組提供支持，為構建端到端加速的人工智能應用提供全面的解決方案。JetPack 6 通過微服務和一系列新功能擴展了 Jetson 平臺的靈活性和可擴展性。這是 JetPack 2024 年下載次數最多的版本。隨著 JetPack 6.0 正式發布，開發者可以滿懷信心地將這些新功能引入更先進的嵌入式 AI 和機器人應用。本文重點介紹了主要功能和新的 AI 工作流程。 JetPack 6 支持在 Jetson 上擴展一系列基于 Linux 的發行版。其中包括 Canonical 的 Ubuntu 服務器、Redhat 的 RHEL 9.4、SUSE、Wind River Linux、Redhawk Real Time OS 以及各種基于 Yocto 的發行版。這些基于 Linux 的發行版在 Jetson…

Source

]]>

新的 GPU 庫降低了 Apache Spark ML 的計算成本

Tue, 18 Apr 2023 03:24:38 +0000

Spark MLlib是Apache Spark用于大規模machine learning并且提供了許多流行的機器學習算法的內置實現。這些實現創建于十年前，但沒有利用現代計算加速器，如 NVIDIA GPU 。為了解決這一差距，我們最近開源了 Spark RAPIDS ML(NVIDIA/spark-rapids-ml) ，一個 Python 包，為 Py Spark ML 應用程序提供 GPU 加速。通過這樣做，我們實現了以下關鍵目標：您可以從NVIDIA/spark-rapids-mlApache v2 許可證下的 GitHub 存儲庫。初始版本為以下 Spark ML 算法提供了 GPU 加速度：該版本還包括以下內容的 Spark ML API 兼容版本：我們之所以最初選擇算法，是因為我們的第三個目標：盡可能使用現有的 NVIDIA 加速 ML 庫。

Source

]]>

NVIDIA Optical Flow SDK 為 Vulkan 帶來加速動作處理

Thu, 13 Apr 2023 03:46:13 +0000

NVIDIA Optical Flow 加速器（ NVOFA ）是新 NVIDIA GPU 上的專用硬件單元，用于高性能計算一對圖像之間的光流。 NVIDIA Optical Flow SDK 公開了開發者 API ，使您能夠在應用程序中利用 NVOFA 硬件的強大功能。我們很高興地宣布 Optical Flow SDK 5.0 的可用性，它增加了對 Vulkan 應用程序中生成光流的支持。 Vulkan 是一個低開銷，跨平臺、開放標準 API 三維圖形和計算 Vulkan 提供更高的性能和更高效 CPU 和 GPU 與上一代 API （如 OpenGL ）相比的使用情況和 Direct3D 11 。您可以利用 Vulkan 提供的顯式 GPU 訪問來優化您的應用程序，并完全控制資源管理和同步。自 2016 年發布以來，

Source

]]>