Stephen Jones 是杰出的專家,也是杰出的 NVIDIA CUDA 架構師。他提供指導和見解,深入探討將應用程序映射到大規模并行機器的復雜性。除了探索 GPU 編程復雜性的基礎知識之外,他還專注于實用技術,例如并行程序設計和 GPU 優化的具體細節,以提高應用程序的效率和性能。
作為正在進行的系列講座的一部分,本會議基于之前的講座。雖然不要求您看過之前的講座,但您可以探索 GPU 計算的工作原理、CUDA 編程的工作原理以及如何編寫 CUDA 程序等基礎主題。
無論您是剛接觸 CUDA,還是希望提高 GPU 編程技能,本課程都會提供在高性能計算方面取得出色表現所需的理論知識和可行策略。
歡迎閱讀會議的 PDF 格式,您將掌握編寫高效 CUDA 程序所需的高級技能和見解,從而充分發揮您的 GPU 的效用。您將深入了解:
- GPU 架構:CPU 和 GPU 方法的主要區別,重點介紹 NVIDIA Hopper H100 GPU 及其對并行處理的影響。
- 并行性:在 CUDA 編程中區分并有效利用數據和任務并行性。
- CUDA 執行模型:了解 CUDA 如何管理線程和塊,以最大限度地提高性能。
- 優化數據并行:運行批量數據并行并緩解波形量化問題的策略。
- 單波內核:將數據映射到線程的優勢,可以實現更好的負載平衡和效率。
- 任務并行:使用 CUDA 流提高效率,并管理流之間的依賴項。
- 工作流并行:通過數據分割和依賴項管理優化復雜算法,如排序算法。
- 緩存優化:用于在緩存中平鋪執行和串聯運行任務以提升性能的技術。
- 高級 CUDA 技術:避免緩存抖動、基于任務的緩存平鋪,并盡可能減少任務間依賴項。
觀看有關如何編寫 CUDA 程序的高級演講,探索 NVIDIA On-Demand 的更多視頻,并加入 NVIDIA 開發者計劃,從行業專家那里獲得寶貴的技能和見解。
此內容部分在生成式 AI 和 LLM 的協助下制作而成,并經過 NVIDIA 技術博客團隊的仔細審查和編輯,以確保精準性、準確性和質量。
?