advanced API performance – NVIDIA 技術博客

高級 API 性能： Vulkan 清除和呈現

Fri, 01 Jul 2022 07:26:00 +0000

這篇文章涵蓋了 Vulkan 在 NVIDIA GPU 上清算和演示的最佳實踐。要在應用程序中獲得高且一致的幀速率，請參閱所有高級 API 性能提示 . 最近 Vulkan 1.3 版本，現在是時候添加一些 Vulkan 特定的提示了，這些提示不一定會被其他高級 API 性能帖子明確涵蓋。除了介紹新的 Vulkan 1.3 核心功能外，這篇文章還分享了一套清理和呈現表面的良好實踐。 Vulkan 1.3 通過擴展 API 中的關鍵部分帶來了改進。本節總結了我們在使用這些新功能時獲得最佳性能的建議。本節提供了在調用 clear 命令時實現性能的指南。此類命令清除彩色圖像或綁定幀緩沖區附件內的區域。以下部分深入了解了使用曲面支持的表示模式的首選方式，以實現良好的性能。有關將 Vulkan 與 NVIDIA…

Source

]]>

高級 API 性能： SetStablePowerState

Tue, 28 Jun 2022 05:26:00 +0000

這篇文章介紹了使用設置表電源狀態關于 NVIDIA GPU 。要在應用程序中獲得高且一致的幀速率，請參閱所有高級 API 性能提示 . 大多數現代處理器，包括 GPU ，在應用程序執行期間更改處理器核心和內存時鐘速率。這些更改可能會改變性能，在測量中引入錯誤，并且很難在運行之間進行比較。

Source

]]>

高級 API 性能：可變速率著色

Mon, 16 May 2022 05:56:00 +0000

這篇文章介紹了 NVIDIA GPU 上可變速率著色的最佳實踐。要在應用程序中獲得高且一致的幀速率，請參閱所有高級 API 性能提示 . 可變速率著色（ VRS ）是一種圖形功能，允許應用程序獨立于渲染目標的分辨率來控制像素著色器調用的頻率。它有 D3D12 和 Vulkan 兩種版本。根據您選擇的 API ，您最多可以有三個選項來定義 VRS 費率：這個選項是最容易實現的，只需要在命令流中進行幾個額外的 API 調用，而不需要額外的依賴項。它是最粗的粒度，因此可以將其視為“最寬的畫筆” 此選項需要增加幾何資產，因此可能需要更改資產在 art 管道中的生成方式或應用程序加載和準備的方式。利用你正在繪制的知識，根據你的需要精確調整著色速率。此選項需要渲染管道更改，但通常不需要資產或藝術品更改。最困難/有趣的問題是如何生成著色率圖像：

Source

]]>

高級 API 性能：Clears

Wed, 11 May 2022 10:35:00 +0000

這篇文章介紹了 NVIDIA GPU 上 Clears 的最佳實踐。要在應用程序中獲得高且一致的幀速率，請參閱所有高級 API 性能提示 . 表面清理是一種廣泛使用的輔助操作。感謝邁克爾·墨菲、莫里斯·哈里斯、德米特里·日丹和帕特里克·尼爾的建議和反饋。 …

Source

]]>

使用最新的 Nsight Compute 進行高級內核評測

Thu, 27 Jan 2022 05:18:00 +0000

NVIDIA Nsight Compute 是用于 CUDA 應用程序的交互式內核分析器。它通過用戶界面和命令行工具提供詳細的性能指標和 API 調試。 Nsight Compute 2022.1 更新了數據收集模式，為性能分析提供了新的用例和選項。立即下載>> Nsight Compute 的這一版本擴展了現有的重播模式，提供了范圍重播的高要求功能。 Range Replay 捕獲并重放分析應用程序中 CUDA API 調用和內核啟動的完整范圍。度量與整個范圍相關聯，而不是單個內核。這允許該工具在不序列化的情況下執行內核，并支持出于正確性或性能原因而需要并發運行的評測內核。范圍由起點和終點標記組成；并包括所有 CUDA API 調用和從任何 CPU 線程在這些標記之間啟動的內核。范圍標記可以使用以下任一方法定義：有關完整的詳細信息，

Source

]]>

高級 API 性能：命令緩沖區

Mon, 25 Oct 2021 06:57:00 +0000

這篇文章介紹了 NVIDIA GPU s 上命令緩沖區的最佳實踐。要在應用程序中獲得高且一致的幀速率，請參閱所有高級 API 性能提示. 命令緩沖區是從 CPU 發送要在 GPU 上執行的命令的主要機制。通過遵循本文列出的最佳實踐，您可以通過最大化并行性、避免瓶頸和減少 GPU 上的空閑時間，在 CPU 和 GPU 上實現性能提升。 …

Source

]]>

高級 API 性能：內存和資源

Mon, 25 Oct 2021 06:40:00 +0000

這篇文章介紹了 NVIDIA GPU s 上內存和資源的最佳實踐。要在應用程序中獲得高且一致的幀速率，請參閱所有高級 API 性能提示. DirectX 12 中的最佳內存管理對于高性能應用程序至關重要。為了在避免口吃的同時獲得最佳表現，應遵循以下建議。應根據應用程序的要求和性能仔細考慮資源格式和類型的選擇。這些建議不可能適用于所有應用程序，因為它們依賴于工作負載和限制。例如，對于很少使用的小型緩沖區，首選 D24 深度格式可能并不重要。但是，對于 8k 陰影貼圖來說，這可能非常關鍵。以下建議應與使用 NVIDIA NSight 診斷性能問題和驗證改進相結合。感謝帕特里克·尼爾、迪拉杰·庫馬爾、伊萬·費多洛夫和朱哈·斯霍姆的建議和幫助 …

Source

]]>

高級 API 性能：網格著色器

Mon, 25 Oct 2021 06:35:00 +0000

這篇文章介紹了 NVIDIA GPU 上網格著色器的最佳實踐。要在應用程序中獲得高且一致的幀速率，請參閱所有高級 API 性能提示. 網格著色器是最近添加到編程管道中的一種，旨在克服經典幾何管道使用的固定布局的瓶頸。本文介紹了 DirectX 和 Vulkan 開發人員的最佳實踐。感謝 Jakub Boksansky 的建議和反饋。 …

Source

]]>

高級 API 性能：異步計算和重疊

Fri, 22 Oct 2021 07:06:00 +0000

這篇文章介紹了 NVIDIA GPU s 上異步計算和重疊的最佳實踐。要在應用程序中獲得高且一致的幀速率，請參閱所有高級 API 性能提示. 異步計算背后的一般原則是通過減少未使用的扭曲插槽的數量來提高整體單元吞吐量，并促進同時使用非沖突數據路徑。 GPU 最基本的通信設置使用單個隊列同步推送和執行圖形、計算和復制工作負載（圖 1-a ）。在理想情況下，所有工作負載都會產生較高的單位吞吐量（圖 2-A ），并使用所有可用的扭曲插槽（圖 2-B ）和不同的數據路徑。實際上，只有一小部分最大單位吞吐量被真正使用。異步計算通過并行處理多個工作負載并有效提高總體處理吞吐量，為您提供了增加硬件單元使用的機會。一個典型的錯誤是只關注 SM 占用（未使用的扭曲插槽）來識別潛在的異步計算工作負載。 GPU 是一個復雜的龐然大物，其他指標，如最高單位吞吐量（ SOL ）發揮著與…

Source

]]>

高級 API 性能：異步復制

Fri, 22 Oct 2021 07:05:00 +0000

這篇文章介紹了 NVIDIA GPU 上異步復制的最佳實踐。要在應用程序中獲得高且一致的幀速率，請參閱所有高級 API 性能提示. 異步復制在完全獨立的硬件上運行，但您必須將其調度到單獨的隊列中。您可以考慮將異步副本轉換為異步計算作為性能策略。 NVIDIA 有專用的異步復制引擎。按性能改進的降序使用以下策略：部分并行性要求開發人員創建和管理一個單獨的拷貝隊列，這需要隔離和可能的調度復雜性。在這種情況下，將同步副本轉換為異步計算比異步副本更值得。但是，任何不能轉換為異步計算的工作也不能轉換為異步副本，反之亦然。感謝帕特里克·尼爾、艾倫·沃爾夫和邁克·墨菲的幫助 p 建議和審查本職位。 …

Source

]]>

高級 API 性能：障礙

Fri, 22 Oct 2021 07:02:00 +0000

這篇文章介紹了 NVIDIA GPU s 上的屏障的最佳實踐。要在應用程序中獲得高且一致的幀速率，請參閱所有高級 API 性能提示. 為了在我們的硬件上獲得最佳性能，以下是在 DX12 或 Vulkan 中使用屏障時應該做和不應該做的事情。這是從DX12 注意事項更新的。 …

Source

]]>