Nsight Tools – Compute – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 19 Mar 2025 08:42:45 +0000 zh-CN hourly 1 196178272 CUDA 工具包現已支持 NVIDIA Blackwell 架構 http://www.open-lab.net/zh-cn/blog/cuda-toolkit-12-8-delivers-nvidia-blackwell-support/ Fri, 31 Jan 2025 04:55:11 +0000 http://www.open-lab.net/zh-cn/blog/?p=12892 Continued]]> CUDA 工具包 的最新版本 (版本 12.8) 使用最新的 NVIDIA CPU 和 GPU,持續提升數據科學、AI、科學計算以及計算機圖形和模擬領域的加速計算性能。本文重點介紹了此版本包含的一些新功能和增強功能: CUDA 工具包 12.8 是該工具包的第一個版本,在整個開發者工具套件 (包括性能工具和分析器、庫和編譯器) 中支持 NVIDIA Blackwell 架構。Blackwell 由 208 億個晶體管構建而成,是 NVIDIA Hopper GPU 中晶體管數量的 2.5 倍以上,是迄今為止最大的 GPU。 Blackwell 支持的主要功能包括:Key Blackwell 如需詳細了解 NVIDIA Blackwell 的領先創新,請參閱 NVIDIA Blackwell 架構技術概覽。 借助 Blackwell,

Source

]]>
12892
通過降低指令緩存未命中率提高 GPU 性能 http://www.open-lab.net/zh-cn/blog/improving-gpu-performance-by-reducing-instruction-cache-misses-2/ Thu, 08 Aug 2024 02:25:26 +0000 http://www.open-lab.net/zh-cn/blog/?p=10885 Continued]]> GPU 專為高速處理大量數據而設計。GPU 具有稱為流多處理器 (SM) 的大量計算資源,以及一系列可為其提供數據的設施:高帶寬內存、高大小數據緩存,以及在活躍的線程束用完時切換到其他線程束的能力,而不會產生任何開銷。 然而,數據乏現象可能仍會發生,許多代碼優化都集中在這個問題上。在某些情況下,SMs 不是數據乏,而是指令乏。本文介紹了對 GPU 工作負載的調查,該工作負載因指令緩存丟失而經歷了速度放慢。本文介紹了如何識別此瓶頸,以及消除瓶頸以提高性能的技術。 這項研究的起源是基因組學領域的應用程序,在該領域中,必須解決與將 DNA 樣本的小部分與參考基因組進行比對相關的許多小的獨立問題。背景是眾所周知的 Smith-Waterman 算法(但這本身對討論并不重要)。 在強大的 NVIDIA H100 Hopper GPU 上,擁有 114 個 SM…

Source

]]>
10885
使用 CUDA 圖形優化 Llama.cpp AI 推理 http://www.open-lab.net/zh-cn/blog/optimizing-llama-cpp-ai-inference-with-cuda-graphs/ Wed, 07 Aug 2024 02:40:50 +0000 http://www.open-lab.net/zh-cn/blog/?p=10897 Continued]]> 開源 llama.cpp 代碼庫最初于 2023 年發布,是一種輕量級但高效的框架,用于在 Meta Llama 模型上執行推理。llama.cpp 基于去年發布的 GGML 庫構建,由于專注于 C/C++ 而無需復雜的依賴項,因此很快就吸引了許多用戶和開發者(尤其是在個人工作站上使用)。 自首次發布以來,Llama.cpp 已得到擴展,不僅支持各種模型、量化等,還支持多個后端,包括支持 NVIDIA CUDA 的 GPU。在撰寫本文之時,Llama.cpp 在所有 GitHub 庫中排名第 123 位,在所有 C++ GitHub 庫中排名第 11 位。 在 NVIDIA GPU 上使用 Llama.cpp 執行 AI 推理已經帶來了顯著的優勢,因為它們能夠以極高的性能和能效執行基礎 AI 推理的計算,同時在消費設備和數據中心中也很普遍。NVIDIA 和 Llama.

Source

]]>
10897
NVIDIA Nsight Graphics 幫助您輕松調試著色器 http://www.open-lab.net/zh-cn/blog/shader-debugging-made-easy-with-nvidia-nsight-graphics/ Wed, 31 Jul 2024 06:17:31 +0000 http://www.open-lab.net/zh-cn/blog/?p=10951 Continued]]> 著色器是在 GPU 上運行的專用程序,可處理光線、像素、頂點和紋理,以實現獨特的視覺效果。借助著色器,您可以為渲染的圖像添加創意表達和真實感。它們在光線追蹤中對于模擬逼真的光照、陰影和反射至關重要。 我們喜歡著色器,但它們可能很難調試。著色器計算非常復雜,并且跨多個線程運行,這可能會導致同步問題和難以重現的不一致錯誤。開發者通常必須手動追蹤著色器邏輯,確定正在訪問的資源,并推斷錯誤發生的位置。這一過程效率低下,通常需要逐步注釋著色器的某些部分,以測試和定位問題:一種容易出錯的策略。 由于渲染技術如降噪等使用了循環緩沖區,因此會帶來額外的挑戰。這些緩沖區中的錯誤會跨幀傳播,因此很難確定根本原因。同樣,傳統調試工具通常無法提供必要的見解,因此您不得不采用手動調試技術來追蹤多個通道并找到問題的根源。 NVIDIA 清楚地表明,圖形社區需要功能強大、

Source

]]>
10951
NVIDIA 全面轉向開源 GPU 內核模塊 http://www.open-lab.net/zh-cn/blog/nvidia-transitions-fully-towards-open-source-gpu-kernel-modules/ Wed, 17 Jul 2024 04:30:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=10641 Continued]]> 借助 R515 驅動程序,NVIDIA 于 2022 年 5 月發布了一套開源的 Linux GPU 內核 模塊,該模塊采用雙許可證,即 GPL 和 MIT 許可。初始版本主要面向數據中心計算 GPU,而 GeForce 和工作站 GPU 則處于 Alpha 狀態。 當時,我們宣布,在后續版本中將提供更可靠、功能齊全的 GeForce 和工作站 Linux 支持, NVIDIA 開放內核模塊最終將取代閉源驅動。 NVIDIA GPU 具有通用的驅動架構和功能集。這意味著同一驅動適用于您的臺式機或筆記本電腦,也可在云端運行世界上最先進的 AI 工作負載。對我們來說,正確的選擇非常重要。 兩年過去了,我們利用開源的 GPU 內核模塊實現了與原來的應用程序性能相當或更好的性能,并添加了大量新的功能。 現在,我們處于完全過渡到開源 GPU 內核模塊的時刻,這是正確的做法。

Source

]]>
10641
NVIDIA Nsight Systems 和 Nsight Graphics 的新版本于 SIGGRAPH 2022 年首次亮相 http://www.open-lab.net/zh-cn/blog/new-releases-of-nvidia-nsight-systems-and-nsight-graphics-debut-at-siggraph-2022/ Wed, 10 Aug 2022 06:04:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4857 Continued]]> 圖形專業人士和研究人員在 SIGGRAPH 2022 年 分享他們的專業知識,了解計算機圖形行業的最新創新。 NVIDIA Developer Tools 很高興成為今年活動的一部分,主辦動手實驗室 使用 Nsight 優化光線跟蹤應用程序 ,并發布新版本 NVIDIA Nsight 系統 和 NVIDIA Nsight 圖形 現在可以下載。 新的 2022.3 版本 Nsight 系統 帶來擴展 Vulkan 支持,同時改善用戶體驗。 Nsight 系統現在支持 Vulkan 視頻 ,用于處理硬件加速視頻文件的 Vulkan 解決方案。在以前版本的 Nsight 系統中, Vulkan 視頻工作負載不會被識別為其占用的較大隊列命令的子集。 通過在 Nsight Systems 2022.3 中的完全集成,

Source

]]>
4857
新的 Nsight 圖形和 Nsight 后續版本中的性能提升和增強功能 http://www.open-lab.net/zh-cn/blog/performance-boosts-and-enhanced-features-in-new-nsight-graphics-nsight-aftermath-releases/ Thu, 21 Jul 2022 05:18:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=4665 Continued]]> Nsight Graphics 2022.3 和 Nsight Afters 2022.2 剛剛發布,現在可以下載。 Nsight Graphics 2022.3 版本側重于性能提升、錯誤修復和 Vulkan 改進。 由于更好的遮擋剔除,光線跟蹤加速結構查看器在某些復雜場景中的性能提高了 20 倍。此外,查看器還改進了對大型實例計數的處理,以提高性能并減少具有重復幾何體的場景中的內存使用。 使用新的 VK_KHR_graphics_pipeline_library extension , Vulkan 應用程序現在可以預編譯著色器,并在運行時以顯著降低的成本鏈接它們。這一點很重要,因為大型 3D 圖形應用程序(如游戲)使用了復雜的算法,從而產生了大量著色器。 這些算法通常需要不同的著色器排列,以考慮不同的效果或照明環境。最終結果是數千或幾十萬個著色器,

Source

]]>
4665
Vulkan 1.3 通過開發人員要求的功能擴展了跨平臺功能 http://www.open-lab.net/zh-cn/blog/vulkan-1-3-broadens-cross-platform-functionality-with-developer-requested-features/ Tue, 25 Jan 2022 06:36:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2880 Continued]]> NVIDIA 和其他 Khronos 成員開發的 Vulkan 最常被要求的擴展中,共有 23 個現在被納入全新的 Vulkan 1.3 核心規范。 NVIDIA 已經準備好了第一天的驅動程序,開發者可以立即在自己的系統上試用這個業界唯一的現代跨平臺 GPU API 的重要新版本。 Vulkan 1.3 中一些最重要的新核心功能包括: 為了幫助開發者輕松升級到 Vulkan 1.3 ,開發者工具已經升級,以支持新功能。這使 Vulkan 開發人員能夠快速進入新標準,并擁有正確的工具進行調查和優化,從而節省時間和挫折感。 Nsight Graphics 是一個功能強大的調試器和探查器,可幫助您使用事件視圖和 API 檢查器快速識別 API 問題。您可以檢查 Vulkan 光線跟蹤加速結構,以及實時查看和編輯著色器。

Source

]]>
2880
使用 NSight Compute 2021 . 3 優化 GPU 利用率 http://www.open-lab.net/zh-cn/blog/optimizing-gpu-utilization-with-nsight-compute-2021-3/ Mon, 25 Oct 2021 06:22:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=1992 Continued]]> NVIDIA 發布了最新的 NSight 計算 2021 . 3,它具有用于測量和建模占用率、源代碼和匯編代碼相關性的新功能,以及用于識別訪問緩存造成的瓶頸的分層屋頂線模型。 NSight Compute 2021 . 3 添加了一個新的占用率計算器活動,幫助您了解內核的硬件資源利用率,并建模調整如何影響占用率。 占用率是每個 SM 的活動扭曲與活動扭曲理論最大數量的比率。占用率低可能表示內核太小、工作負載不平衡或資源爭用。所有這些都會限制 GPU 上具有特定可用資源集的內核的性能。 此版本添加了一個高要求的功能,允許直接從命令行從 GUI 中的源頁面訪問信息。通過使用標志,用戶可以在命令行上看到源代碼行、 PTX 行或程序集行以及這些行的收集指標。 在分析收集的數據以及編寫腳本和后期處理結果以進行進一步報告和分析時,此功能提供了額外的靈活性。

Source

]]>
1992
人人超碰97caoporen国产