NVIDIA推出最新版本的?CUDA Toolkit,?使用最新的 NVIDIA GPU 持續推動加速計算性能的發展。CUDA Toolkit 12.3 版的新功能包括:
- Windows 上默認延遲加載
- Windows 上的單步CUDA卸載
- 增強的?NVIDIA Nsight Compute?和?NVIDIA Nsight Systems?開發者工具
CUDA 和 CUDA Toolkit繼續為多個領域內的加速計算應用提供支持,這些領域包括:數據科學、機器學習和深度學習、用于訓練和推理的大語言模型的生成式AI、圖形和模擬、科學計算等。CUDA 為解決世界上最復雜的計算問題提供強大的技術支持。
NVIDIA?Nsight?開發者工具?
CUDA Toolkit 12.3包含最新版本的?NVIDIA Nsight 開發者工具,可幫助您在?NVIDIA Grace Hopper?平臺上優化和調試CUDA 應用程序。
Nsight Compute
Nsight Compute?為 CUDA 內核提供了詳細的評測和分析,2023.3 版本隨 CUDA Toolkit 12.3 一起首次亮相。該版本包括了可以提高性能的功能,以及數據收集和分析的功能。
新的 PM Sampling功能添加了與時間相關的內核性能數據。以前,大多數性能指標都是在整個內核中聚合的。這個常用的功能可以幫助用戶發現內核中分階段出現的性能問題以及諸如尾部效應之類的時間效應(圖 1)。它包含在 –full 指標集中。它可以添加為 GUI 中的 PM Sampling部分,或者通過將 –section PmSampling 添加到 CLI。

Nsight Compute 2023.3版本還引入了跨配置文件比較源代碼更改的能力,以了解修改如何影響源代碼級別的性能。要使用此功能,請將一份報告設置為基線,然后單擊另一份報告中的“來源比較”按鈕,以查看突出顯示的來源差異和相關的性能指標。
編譯內核時使用?–-lineinfo?標志以啟用源解析以及是否就地修改了源文件。使用導入源選項或?–import-source?標志來保留原始源代碼。
要了解有關 Nsight Compute 2023.3 版本的更多功能,請參閱?Nsight Compute?入門。
Nsight Systems
CUDA Toolkit 12.3 版本還包括 Nsight Systems 2023.3,這是一個性能調優工具,可以在統一的時間線上分析硬件指標和 CUDA 應用程序、API 和庫。
最新版本的?Nsight 系統?引入了對?NVIDIA Grace CPU?的支持,使您能夠在應用程序性能的背景下深入研究Grace CPU 周期。Nsight Systems 2023.3 還添加了新功能,包括通過GUI 進行網絡接口卡(NIC)分析。
作為數據在服務器硬件單元之間移動的主要方式,了解網絡中節點間的通信將有助于診斷瓶頸。Nsight Systems 能夠監控 NIC 吞吐量,以圖表形式發送和接收的字節數。如果 NIC 的等待時間延長,這強烈表明節點間的網絡需要優化。Nsight Systems還可以分析?NVIDIA Quantum InfiniBand?交換機的吞吐量。
要了解更多關于 Nsight Systems 2023.3 的功能,請參閱?Nsight Systems入門。如需深入了解 Nsight Systems 如何支持數據中心規模的開發,請參閱?使用 NVIDIA Nsight Systems加速數據中心和 HPC 性能分析。
總 結?
CUDA Toolkit 12.3 版本豐富了用于加速計算的基礎 NVIDIA 驅動程序和運行時軟件,同時繼續為最新的 NVIDIA GPU、加速庫、編譯器和開發工具提供增強的支持。
要了解更多信息,請參閱?CUDA 文檔,查看NVIDIA DLI最新的課程或者瀏覽NGC 目錄。另外,您還可以在 CUDA 開發者論壇中提出問題并加入討論。
?