深度學習 – NVIDIA 技術博客

使用 nvmath-python 實現 Epilog 運算與矩陣乘法的融合計算

Mon, 18 Nov 2024 06:37:55 +0000

nvmath-python (Beta) 是一個開源 Python 庫，為 Python 程序員提供對 NVIDIA CUDA-X 數學庫的高性能數學運算訪問。nvmath-python 既提供底層庫的低級綁定，也提供更高級別的 Python 抽象。它可與 PyTorch 和 CuPy 等現有 Python 軟件包進行互操作。在本文中，我將展示如何在 nvmath-python 中將結語與矩陣乘法結合使用。結語是可以與正在執行的數學運算（如 FFT 或矩陣乘法）融合的運算。可用的結語涵蓋了大多數常見的深度學習計算。我通過實施簡單神經網絡的常見正向和反向傳遞運算來演示其用法。要安裝 nvmath-python，請按照安裝說明操作。在本節中，我將演示如何使用 epilogs 實現簡單線性層的前向傳遞。此層首先將輸入向量乘以權重矩陣，

Source

]]>

在 cuBLAS 中引入分組 GEMM API 以及更多性能更新

Wed, 12 Jun 2024 05:43:00 +0000

最新版本 NVIDIA cuBLAS 庫版本 12.5 將繼續為深度學習（DL）和高性能計算（HPC）工作負載提供功能和性能。本文將概述自版本 12.0以來 cuBLAS 矩陣乘法（matrix multiplications）中的以下更新：分組的 GEMM API 可視為批量 API 的泛化，可在一次內核啟動中對不同的矩陣大小、轉置和縮放因子進行分組和并行化。這種方法提供加速的一個示例是多專家 (MoE)模型的批量大小為 8 和 64，以及 FP16 輸入和輸出。在本示例中，分組的 GEMM API 可以使用批量 GEMM API 實現比單純循環快 1.2 倍的速度。這一點令人印象深刻，因為當前分組的 GEMM 核函數僅利用線程束級 MMA 指令。它們已證明可以與利用線程束級 MMA (wgmma) 指令的分批 GEMM 核函數進行競爭。

Source

]]>

使用 NVIDIA cuDNN 9 加速多個 Transformer

Fri, 24 May 2024 06:55:40 +0000

我們提供的 NVIDIA CUDA 深度神經網絡庫(cuDNN) 是一個專門為深度學習應用而設計的 GPU 加速庫，旨在以先進的性能加速深度學習基元。 cuDNN 與 PyTorch、TensorFlow 和 XLA (加速線性代數) 等熱門深度學習框架集成。這些框架抽象化了直接 GPU 編程的復雜性，使您能夠專注于設計和訓練模型，而無需擔心底層硬件。cuDNN 可作為底層性能引擎，確保以更高的效率執行這些框架上的操作。最近，擴展的點積注意力 (SDPA) 已成為大型語言模型 (LLM) 等重要工作負載中的性能關鍵基元。cuDNN 增加了對該基元的支持，并一直在使用閃存注意力和其他優化來提高其性能釋放，同時擴展功能支持面，以支持一系列注意力用例。在 NVIDIA H200 Tensor Core GPU 上，cuDNN 可以在 FP8 中實現高達 1.2…

Source

]]>

設計深度網絡以處理其他深度網絡

Thu, 17 Aug 2023 06:08:52 +0000

深度神經網絡（DNN）是從數據中學習函數的首選模型，如圖像分類器或語言模型。近年來，深度模型由于表示數據樣本本身而變得流行起來。例如，可以訓練深度模型來表示圖像、3D 對象或場景，這種方法稱為Implicit Neural Representations（另請參閱 Neural Radiance Fields和Instant NGP)。請繼續閱讀一些對預訓練的深度模型執行操作的示例，這些模型包括作為函數的 DNN 和作為數據的 DNN。假設您有一個使用隱式神經表示（INR）或神經輻射場（NeRF）表示的 3D 對象數據集。通常，您可能希望“編輯”對象以更改其幾何圖形或修復錯誤和異常。‌例如，拆除一個杯子的把手或使所有車輪比 NeRF 重建的車輪更對稱。不幸的是，使用 INR 和 NeRF 的一個主要挑戰是，它們必須在編輯之前進行渲染。實際上，

Source

]]>

自定義 AI 模型：使用 NVIDIA Triton 部署字符檢測和識別模型

Tue, 15 Aug 2023 04:50:58 +0000

NVIDIA Triton Inference Server 通過使團隊能夠在任何基于 GPU 或 CPU 的基礎設施上部署、運行和擴展經過訓練的 ML 或 DL 模型，簡化和標準化 AI 推理。它幫助開發人員在云端、本地、邊緣和嵌入式設備上提供高性能推理。 nvOCDR 庫已集成到 Triton 中進行推理。nvOCDR 庫封裝了用于光學字符檢測和識別（OCD/OCR）的整個推理管道。該庫使用在 TAO Toolkit 上訓練的 OCDNet 和 OCRNet 模型。想要了解更多詳細信息，請參閱 nvOCDR 文檔。本文是關于使用 NVIDIA TAO 和預訓練模型創建和部署自定義 AI 模型以準確檢測和識別手寫文本的系列文章的一部分。第一部分解釋了如何使用 TAO 對字符檢測和識別模型進行訓練和微調。本部分將引導您完成使用 NVIDIA Triton 部署模型的步驟。

Source

]]>

自定義 AI 模型：使用 NVIDIA TAO 訓練字符檢測和識別模型

Tue, 15 Aug 2023 04:44:58 +0000

光學字符檢測（OCD）和光學字符識別（OCR）是用于從圖像中提取文本的計算機視覺技術。不同行業的使用情況各不相同，包括從掃描的文檔或帶有手寫文本的表格中提取數據、自動識別車牌、根據序列號對履行中心中的箱子或物體進行分類、根據零件號識別組裝線上要檢查的部件等。 OCR 應用于許多行業，包括金融服務、醫療保健、物流、工業檢測和智能城市。OCR 通過自動化手動任務，提高了企業的生產效率和運營效率。為了有效，OCR 必須達到或超過人類水平的準確性。由于它所涉及的獨特用例，它本身就很復雜。例如，當 OCR 分析文本時，文本可以在字體、大小、顏色、形狀和方向上變化，可以是手寫的，也可以具有其他噪聲，如部分遮擋。在測試環境中微調模型對于保持高精度和降低錯誤率變得極其重要。 NVIDIA TAO 工具包是一個低代碼人工智能工具包，

Source

]]>

使用 Spark 3.4 簡化分布式深度學習

Mon, 12 Jun 2023 05:23:45 +0000

Apache Spark是一個業界領先的平臺，用于大規模數據的分布式提取、轉換和加載（ ETL ）工作負載。隨著深度學習（ DL ）的發展，許多 Spark 從業者試圖將 DL 模型添加到他們的數據處理管道中，以涵蓋各種用例，如銷售預測、內容推薦、情緒分析和欺詐檢測。然而，結合 DL 培訓和推理，從歷史上看，大規模數據一直是 Spark 用戶面臨的挑戰。大多數 DL 框架都是為單節點環境設計的，它們的分布式訓練和推理 API 通常是經過深思熟慮后添加的。為了解決單節點 DL 環境和大規模分布式環境之間的脫節，有多種第三方解決方案，如 Horovod-on-Spark、TensorFlowOnSpark 和 SparkTorch，但由于這些解決方案不是在 Spark 中本地構建的，因此用戶必須根據自己的需求評估每個平臺。隨著 Spark 3.4 的發布，

Source

]]>