Streams – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 25 Mar 2022 06:11:44 +0000 zh-CN hourly 1 196178272 通過 GPU 內存預取提高應用程序性能 http://www.open-lab.net/zh-cn/blog/boosting-application-performance-with-gpu-memory-prefetching/ Wed, 23 Mar 2022 06:09:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3450 Continued]]> NVIDIA GPU 具有強大的計算能力,通常必須以高速傳輸數據才能部署這種能力。原則上這是可能的,因為 GPU 也有很高的內存帶寬,但有時他們需要你的幫助來飽和帶寬。 在本文中,我們將研究一種實現這一點的特定方法:預取。我們將解釋在什么情況下預取可以很好地工作,以及如何找出這些情況是否適用于您的工作負載。 NVIDIA GPU 從大規模并行中獲得力量。 32 個線程的許多扭曲可以放置在流式多處理器( SM )上,等待輪到它們執行。當一個 warp 因任何原因暫停時, warp 調度程序會以零開銷切換到另一個,確保 SM 始終有工作要做。 在高性能的 NVIDIA Ampere 架構 A100 GPU 上,多達 64 個活動翹板可以共享一個 SM ,每個都有自己的資源。除此之外, A100 還有 108 條短信,可以同時執行 warp 指令。

Source

]]>
3450
人人超碰97caoporen国产