CUBLAS – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 14 Feb 2025 04:44:37 +0000 zh-CN hourly 1 196178272 新的 AI 模型提供癌癥細胞級視圖 http://www.open-lab.net/zh-cn/blog/new-ai-model-offers-cellular-level-view-of-cancerous-tumor/ Tue, 04 Feb 2025 04:42:37 +0000 http://www.open-lab.net/zh-cn/blog/?p=12880 Continued]]> 研究癌癥的研究人員推出了一種新的 AI 模型,該模型提供了癌細胞的細胞級映射和可視化,科學家希望該模型能夠揭示某些細胞間關系如何以及為什么會引發癌癥生長。 位于圣地亞哥的初創公司 BioTuring 宣布推出 一種 AI 模型,該模型可以以單細胞分辨率快速創建癌癥腫瘤的詳細可視化圖像。這種類型的顆粒數據顯示了細胞的大小、形狀、哪些基因被激活,關鍵是顯示了組織樣本中數百萬個不同細胞的相對空間位置。 與速度慢得多的傳統生物計算方法不同,新模型提供了有關腫瘤動力學以及癌細胞和免疫細胞相互作用的實時高分辨率見解。 BioTuring 首席執行官 Son Pham 表示:“人體大約有 30 萬億個細胞,如果進行大規模的腫瘤活檢,就會發現有幾百萬個細胞。“類比是 – 想象一下,您正在以非常高分辨率分析衛星圖像,試圖了解城市的運作方式。在生物學領域,我們的模型所做的是向您展示每棟房子、

Source

]]>
12880
Warp 1.5.0 引入圖塊化編程 http://www.open-lab.net/zh-cn/blog/introducing-tile-based-programming-in-warp-1-5-0/ Sat, 14 Dec 2024 05:55:43 +0000 http://www.open-lab.net/zh-cn/blog/?p=12531 Continued]]> 借助最新版本的 Warp 1.5.0 ,開發者現在可以使用 Python 中基于圖塊的新編程基元。這些新工具利用 cuBLASDx 和 cuFFTDx ,在 Python 內核中為開發者提供高效的矩陣乘法和 Fourier 變換,從而加速仿真和科學計算。在這篇博文中,我們將介紹這些新功能,并展示如何使用它們來優化應用。Warp 1.5.0 中提供的基于圖塊的編程模型目前處于預覽階段,在即將推出的版本中,性能和 APIs 可能會發生變化。 在過去十年中,GPU 硬件已從單純的 SIMT (單指令多線程) 執行模型發展為高度依賴協作操作來提高效率的模型。隨著 Tensor Core 數學單元在整體 GPU 計算中的作用越來越大,高效且高效的編程變得越來越重要。高級 API 如 BLAS 提供的抽象概念可以面向各種高性能低級指令。但是,這些 API 通常難以與用戶程序集成,

Source

]]>
12531
使用 nvmath-python 實現 Epilog 運算與矩陣乘法的融合計算 http://www.open-lab.net/zh-cn/blog/fusing-epilog-operations-with-matrix-multiplication-using-nvmath-python/ Mon, 18 Nov 2024 06:37:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=12017 Continued]]> nvmath-python (Beta) 是一個開源 Python 庫,為 Python 程序員提供對 NVIDIA CUDA-X 數學庫的高性能數學運算訪問。nvmath-python 既提供底層庫的低級綁定,也提供更高級別的 Python 抽象。它可與 PyTorch 和 CuPy 等現有 Python 軟件包進行互操作。 在本文中,我將展示如何在 nvmath-python 中將 結語 與矩陣乘法結合使用。結語是可以與正在執行的數學運算(如 FFT 或矩陣乘法)融合的運算。可用的結語涵蓋了大多數常見的深度學習計算。我通過實施簡單神經網絡的常見正向和反向傳遞運算來演示其用法。 要安裝 nvmath-python,請 按照安裝說明 操作。 在本節中,我將演示如何使用 epilogs 實現簡單線性層的前向傳遞。此層首先將輸入向量乘以權重矩陣,

Source

]]>
12017
在 cuBLAS 中引入分組 GEMM API 以及更多性能更新 http://www.open-lab.net/zh-cn/blog/introducing-grouped-gemm-apis-in-cublas-and-more-performance-updates/ Wed, 12 Jun 2024 05:43:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=10332 Continued]]> 最新版本 NVIDIA cuBLAS 庫版本 12.5 將繼續為深度學習(DL)和高性能計算(HPC)工作負載提供功能和性能。本文將概述自版本 12.0以來 cuBLAS 矩陣乘法(matrix multiplications)中的以下更新: 分組的 GEMM API 可視為批量 API 的泛化,可在一次內核啟動中對不同的矩陣大小、轉置和縮放因子進行分組和并行化。 這種方法提供加速的一個示例是多專家 (MoE)模型的批量大小為 8 和 64,以及 FP16 輸入和輸出。在本示例中,分組的 GEMM API 可以使用批量 GEMM API 實現比單純循環快 1.2 倍的速度。 這一點令人印象深刻,因為當前分組的 GEMM 核函數僅利用線程束級 MMA 指令。它們已證明可以與利用線程束級 MMA (wgmma) 指令的分批 GEMM 核函數進行競爭。

Source

]]>
10332
NVIDIA Hopper GPU 上的新 cuBLAS 12.0 功能和矩陣乘法性能 http://www.open-lab.net/zh-cn/blog/new-cublas-12-0-features-and-matrix-multiplication-performance-on-nvidia-hopper-gpus/ Wed, 01 Feb 2023 02:48:04 +0000 http://www.open-lab.net/zh-cn/blog/?p=6207 Continued]]> NVIDIA H100 TensorCore GPU 基于 NVIDIA Hopper 架構 和第四代 NVIDIA Tensor Cores ,最近推出了 提供前所未有的性能 和 全面的 AI 基準 ,如 MLPerf training 。 人工智能和機器學習基準測試中相當一部分操作是 通用矩陣乘法 ,也稱為 matmul 函數。 GEMs 也存在于深度學習訓練的前向和后向通道以及推理中。 GEMM 的突出性使得深度學習軟件能夠最大限度地利用用于矩陣乘法的硬件,同時支持幾個關鍵的 AI 組件。這些成分包括具有偏置和流行激活功能的融合體及其衍生物。 本文探討了 NVIDIA cuBLAS 庫 在里面 CUDA 12.0 重點是最近推出的 FP8 format 、 NVIDIA Hopper 上的 GEM 性能 GPU ,以及新 64 位整數應用程序編程接口 ( API…

Source

]]>
6207
人人超碰97caoporen国产