通過 GPU 內存訪問調整提高應用程序性能

Mon, 27 Jun 2022 06:54:00 +0000

NVIDIA GPU 具有強大的計算能力，通常需要高速傳輸數據才能部署這種能力。原則上，這是可能的，因為 GPU 也有很高的內存帶寬，但有時他們需要程序員的幫助來飽和帶寬。在這篇博文中，我們研究了一種實現這一點的方法，并將其應用于金融計算中的一個示例。我們將解釋在什么情況下這種方法可以很好地工作，以及如何找出這些情況是否適用于您的工作負載。 NVIDIA GPU 的力量來自大規模并行。可以將 32 個線程的許多扭曲放置在流式多處理器（ SM ）上，等待輪到它們執行。當一個 warp 因任何原因暫停時， warp 調度程序將切換到另一個，開銷為零，確保 SM 始終有工作要做。在高性能 NVIDIA Ampere 100 （ A100 ） GPU 上，多達 64 個活動經線可以共享一個 SM ，每個都有自己的資源。除此之外， A100 還有許多 SMs-108 ，

Source

]]>

memory – NVIDIA 技術博客

通過 GPU 內存訪問調整提高應用程序性能