]]>3949使用最新的 Nsight Compute 進行高級內核評測
http://www.open-lab.net/zh-cn/blog/advanced-kernel-profiling-with-the-latest-nsight-compute/
Thu, 27 Jan 2022 05:18:00 +0000http://www.open-lab.net/zh-cn/blog/?p=2956Continued]]>NVIDIA Nsight Compute 是用于 CUDA 應用程序的交互式內核分析器。它通過用戶界面和命令行工具提供詳細的性能指標和 API 調試。 Nsight Compute 2022.1 更新了數據收集模式,為性能分析提供了新的用例和選項。 立即下載>> Nsight Compute 的這一版本擴展了現有的重播模式,提供了范圍重播的高要求功能。 Range Replay 捕獲并重放分析應用程序中 CUDA API 調用和內核啟動的完整范圍。度量與整個范圍相關聯,而不是單個內核。這允許該工具在不序列化的情況下執行內核,并支持出于正確性或性能原因而需要并發運行的評測內核。范圍由起點和終點標記組成;并包括所有 CUDA API 調用和從任何 CPU 線程在這些標記之間啟動的內核。 范圍標記可以使用以下任一方法定義: 有關完整的詳細信息,
]]>2956高級 API 性能:命令緩沖區
http://www.open-lab.net/zh-cn/blog/advanced-api-performance-command-buffers/
Mon, 25 Oct 2021 06:57:00 +0000http://www.open-lab.net/zh-cn/blog/?p=2018Continued]]>這篇文章介紹了 NVIDIA GPU s 上命令緩沖區的最佳實踐。要在應用程序中獲得高且一致的幀速率,請參閱所有高級 API 性能提示. 命令緩沖區是從 CPU 發送要在 GPU 上執行的命令的主要機制。通過遵循本文列出的最佳實踐,您可以通過最大化并行性、避免瓶頸和減少 GPU 上的空閑時間,在 CPU 和 GPU 上實現性能提升。 …
]]>2009高級 API 性能:異步計算和重疊
http://www.open-lab.net/zh-cn/blog/advanced-api-performance-async-compute-and-overlap/
Fri, 22 Oct 2021 07:06:00 +0000http://www.open-lab.net/zh-cn/blog/?p=2034Continued]]>這篇文章介紹了 NVIDIA GPU s 上異步計算和重疊的最佳實踐。要在應用程序中獲得高且一致的幀速率,請參閱所有高級 API 性能提示. 異步計算背后的一般原則是通過減少未使用的扭曲插槽的數量來提高整體單元吞吐量,并促進同時使用非沖突數據路徑。 GPU 最基本的通信設置使用單個隊列同步推送和執行圖形、計算和復制工作負載(圖 1-a )。 在理想情況下,所有工作負載都會產生較高的單位吞吐量(圖 2-A ),并使用所有可用的扭曲插槽(圖 2-B )和不同的數據路徑。實際上,只有一小部分最大單位吞吐量被真正使用。異步計算通過并行處理多個工作負載并有效提高總體處理吞吐量,為您提供了增加硬件單元使用的機會。 一個典型的錯誤是只關注 SM 占用(未使用的扭曲插槽)來識別潛在的異步計算工作負載。 GPU 是一個復雜的龐然大物,其他指標,如最高單位吞吐量( SOL )發揮著與…