通過 GPU 內存預取提高應用程序性能

Wed, 23 Mar 2022 06:09:00 +0000

NVIDIA GPU 具有強大的計算能力，通常必須以高速傳輸數據才能部署這種能力。原則上這是可能的，因為 GPU 也有很高的內存帶寬，但有時他們需要你的幫助來飽和帶寬。在本文中，我們將研究一種實現這一點的特定方法：預取。我們將解釋在什么情況下預取可以很好地工作，以及如何找出這些情況是否適用于您的工作負載。 NVIDIA GPU 從大規模并行中獲得力量。 32 個線程的許多扭曲可以放置在流式多處理器（ SM ）上，等待輪到它們執行。當一個 warp 因任何原因暫停時， warp 調度程序會以零開銷切換到另一個，確保 SM 始終有工作要做。在高性能的 NVIDIA Ampere 架構 A100 GPU 上，多達 64 個活動翹板可以共享一個 SM ，每個都有自己的資源。除此之外， A100 還有 108 條短信，可以同時執行 warp 指令。

Source

]]>

Streams – NVIDIA 技術博客

通過 GPU 內存預取提高應用程序性能