深度學習 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 12 Dec 2024 04:07:30 +0000 zh-CN hourly 1 196178272 使用 nvmath-python 實現 Epilog 運算與矩陣乘法的融合計算 http://www.open-lab.net/zh-cn/blog/fusing-epilog-operations-with-matrix-multiplication-using-nvmath-python/ Mon, 18 Nov 2024 06:37:55 +0000 http://www.open-lab.net/zh-cn/blog/?p=12017 Continued]]> nvmath-python (Beta) 是一個開源 Python 庫,為 Python 程序員提供對 NVIDIA CUDA-X 數學庫的高性能數學運算訪問。nvmath-python 既提供底層庫的低級綁定,也提供更高級別的 Python 抽象。它可與 PyTorch 和 CuPy 等現有 Python 軟件包進行互操作。 在本文中,我將展示如何在 nvmath-python 中將 結語 與矩陣乘法結合使用。結語是可以與正在執行的數學運算(如 FFT 或矩陣乘法)融合的運算。可用的結語涵蓋了大多數常見的深度學習計算。我通過實施簡單神經網絡的常見正向和反向傳遞運算來演示其用法。 要安裝 nvmath-python,請 按照安裝說明 操作。 在本節中,我將演示如何使用 epilogs 實現簡單線性層的前向傳遞。此層首先將輸入向量乘以權重矩陣,

Source

]]>
12017
在 cuBLAS 中引入分組 GEMM API 以及更多性能更新 http://www.open-lab.net/zh-cn/blog/introducing-grouped-gemm-apis-in-cublas-and-more-performance-updates/ Wed, 12 Jun 2024 05:43:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=10332 Continued]]> 最新版本 NVIDIA cuBLAS 庫版本 12.5 將繼續為深度學習(DL)和高性能計算(HPC)工作負載提供功能和性能。本文將概述自版本 12.0以來 cuBLAS 矩陣乘法(matrix multiplications)中的以下更新: 分組的 GEMM API 可視為批量 API 的泛化,可在一次內核啟動中對不同的矩陣大小、轉置和縮放因子進行分組和并行化。 這種方法提供加速的一個示例是多專家 (MoE)模型的批量大小為 8 和 64,以及 FP16 輸入和輸出。在本示例中,分組的 GEMM API 可以使用批量 GEMM API 實現比單純循環快 1.2 倍的速度。 這一點令人印象深刻,因為當前分組的 GEMM 核函數僅利用線程束級 MMA 指令。它們已證明可以與利用線程束級 MMA (wgmma) 指令的分批 GEMM 核函數進行競爭。

Source

]]>
10332
使用 NVIDIA cuDNN 9 加速多個 Transformer http://www.open-lab.net/zh-cn/blog/accelerating-transformers-with-nvidia-cudnn-9/ Fri, 24 May 2024 06:55:40 +0000 http://www.open-lab.net/zh-cn/blog/?p=10144 Continued]]> 我們提供的 NVIDIA CUDA 深度神經網絡庫(cuDNN) 是一個專門為深度學習應用而設計的 GPU 加速庫,旨在以先進的性能加速深度學習基元。 cuDNN 與 PyTorch、TensorFlow 和 XLA (加速線性代數) 等熱門深度學習框架集成。這些框架抽象化了直接 GPU 編程的復雜性,使您能夠專注于設計和訓練模型,而無需擔心底層硬件。cuDNN 可作為底層性能引擎,確保以更高的效率執行這些框架上的操作。 最近,擴展的點積注意力 (SDPA) 已成為大型語言模型 (LLM) 等重要工作負載中的性能關鍵基元。cuDNN 增加了對該基元的支持,并一直在使用閃存注意力和其他優化來提高其性能釋放,同時擴展功能支持面,以支持一系列注意力用例。 在 NVIDIA H200 Tensor Core GPU 上,cuDNN 可以在 FP8 中實現高達 1.2…

Source

]]>
10144
設計深度網絡以處理其他深度網絡 http://www.open-lab.net/zh-cn/blog/designing-deep-networks-to-process-other-deep-networks/ Thu, 17 Aug 2023 06:08:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=7685 Continued]]> 深度神經網絡(DNN)是從數據中學習函數的首選模型,如圖像分類器或語言模型。近年來,深度模型由于表示數據樣本本身而變得流行起來。例如,可以訓練深度模型來表示圖像、3D 對象或場景,這種方法稱為Implicit Neural Representations(另請參閱 Neural Radiance Fields和Instant NGP)。請繼續閱讀一些對預訓練的深度模型執行操作的示例,這些模型包括作為函數的 DNN 和作為數據的 DNN。 假設您有一個使用隱式神經表示(INR)或神經輻射場(NeRF)表示的 3D 對象數據集。通常,您可能希望“編輯”對象以更改其幾何圖形或修復錯誤和異常。‌例如,拆除一個杯子的把手或使所有車輪比 NeRF 重建的車輪更對稱。 不幸的是,使用 INR 和 NeRF 的一個主要挑戰是,它們必須在編輯之前進行渲染。實際上,

Source

]]>
7685
自定義 AI 模型:使用 NVIDIA Triton 部署字符檢測和識別模型 http://www.open-lab.net/zh-cn/blog/create-custom-character-detection-and-recognition-models-with-nvidia-tao-part-2/ Tue, 15 Aug 2023 04:50:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=7599 Continued]]> NVIDIA Triton Inference Server 通過使團隊能夠在任何基于 GPU 或 CPU 的基礎設施上部署、運行和擴展經過訓練的 ML 或 DL 模型,簡化和標準化 AI 推理。它幫助開發人員在云端、本地、邊緣和嵌入式設備上提供高性能推理。 nvOCDR 庫已集成到 Triton 中進行推理。nvOCDR 庫封裝了用于光學字符檢測和識別(OCD/OCR)的整個推理管道。該庫使用在 TAO Toolkit 上訓練的 OCDNet 和 OCRNet 模型。想要了解更多詳細信息,請參閱 nvOCDR 文檔。 本文是關于使用 NVIDIA TAO 和預訓練模型創建和部署自定義 AI 模型以準確檢測和識別手寫文本的系列文章的一部分。第一部分 解釋了如何使用 TAO 對字符檢測和識別模型進行訓練和微調。本部分將引導您完成使用 NVIDIA Triton 部署模型的步驟。

Source

]]>
7599
自定義 AI 模型:使用 NVIDIA TAO 訓練字符檢測和識別模型 http://www.open-lab.net/zh-cn/blog/create-custom-character-detection-and-recognition-models-with-nvidia-tao-part-1/ Tue, 15 Aug 2023 04:44:58 +0000 http://www.open-lab.net/zh-cn/blog/?p=7596 Continued]]> 光學字符檢測(OCD)和光學字符識別(OCR)是用于從圖像中提取文本的計算機視覺技術。不同行業的使用情況各不相同,包括從掃描的文檔或帶有手寫文本的表格中提取數據、自動識別車牌、根據序列號對履行中心中的箱子或物體進行分類、根據零件號識別組裝線上要檢查的部件等。 OCR 應用于許多行業,包括金融服務、醫療保健、物流、工業檢測和智能城市。OCR 通過自動化手動任務,提高了企業的生產效率和運營效率。 為了有效,OCR 必須達到或超過人類水平的準確性。由于它所涉及的獨特用例,它本身就很復雜。例如,當 OCR 分析文本時,文本可以在字體、大小、顏色、形狀和方向上變化,可以是手寫的,也可以具有其他噪聲,如部分遮擋。在測試環境中微調模型對于保持高精度和降低錯誤率變得極其重要。 NVIDIA TAO 工具包 是一個低代碼人工智能工具包,

Source

]]>
7596
使用 Spark 3.4 簡化分布式深度學習 http://www.open-lab.net/zh-cn/blog/distributed-deep-learning-made-easy-with-spark-3-4/ Mon, 12 Jun 2023 05:23:45 +0000 http://www.open-lab.net/zh-cn/blog/?p=7219 Continued]]> Apache Spark是一個業界領先的平臺,用于大規模數據的分布式提取、轉換和加載( ETL )工作負載。隨著深度學習( DL )的發展,許多 Spark 從業者試圖將 DL 模型添加到他們的數據處理管道中,以涵蓋各種用例,如銷售預測、內容推薦、情緒分析和欺詐檢測。 然而,結合 DL 培訓和推理,從歷史上看,大規模數據一直是 Spark 用戶面臨的挑戰。大多數 DL 框架都是為單節點環境設計的,它們的分布式訓練和推理 API 通常是經過深思熟慮后添加的。 為了解決單節點 DL 環境和大規模分布式環境之間的脫節,有多種第三方解決方案,如 Horovod-on-Spark、TensorFlowOnSpark 和 SparkTorch,但由于這些解決方案不是在 Spark 中本地構建的,因此用戶必須根據自己的需求評估每個平臺。 隨著 Spark 3.4 的發布,

Source

]]>
7219
人人超碰97caoporen国产