CUDA C/C++ – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Tue, 11 Mar 2025 09:04:54 +0000 zh-CN hourly 1 196178272 優化 CUDA C++ 編譯時間 http://www.open-lab.net/zh-cn/blog/optimizing-compile-times-for-cuda-c/ Mon, 10 Mar 2025 08:58:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=13121 Continued]]> 在現代軟件開發中,時間是非常寶貴的資源,尤其是在編譯過程中。對于在大規模 GPU 加速應用程序上使用 CUDA C++的開發者而言,優化編譯時間可以顯著提高工作效率并簡化整個開發周期。 使用 編譯器進行離線編譯時,高效的編譯時間使您能夠快速構建代碼并保持勢頭。在使用 nvrtc 的即時 (JIT) 編譯環境中,最小化編譯時間有助于減少執行或運行時延遲,并提高應用程序性能。如果您在實時系統或交互式應用程序上工作,您將從盡可能快的編譯時間中受益匪淺。 理解編譯瓶頸的來源并不總是那么簡單。CUDA 編譯過程十分復雜,因為編譯器會對代碼執行各種優化和轉換,幾乎看不到代碼的哪些部分需要很長時間才能編譯。 例如,看似簡單的代碼行可能會觸發復雜的模板實例化,從而導致其他模板的遞歸擴展,進而消耗過多的編譯時間。如果不清楚幕后發生了什么,您就不知道編譯時間較長的根本原因是什么,

Source

]]>
13121
CUDA 11.6 工具包發布新版本 http://www.open-lab.net/zh-cn/blog/cuda-11-6-toolkit-new-release-revealed/ Mon, 17 Jan 2022 03:51:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2802 Continued]]> NVIDIA 發布了 CUDA 開發環境 CUDA 11.6 的最新版本。本版本的重點是增強 CUDA 應用程序的編程模型和性能。 CUDA 繼續推動 GPU 加速度的邊界,并為 HPC 、可視化、 AI 、 ML 和 DL 和數據科學中的新應用奠定基礎。 CUDA 11.6 有幾個重要特性。這篇文章概述了關鍵功能: CUDA 11.6 附帶 R510 驅動程序,這是一個更新分支。 CUDA 11.6 工具包可供下載 . GSP 驅動程序體系結構現在是所有列出的圖靈和安培 GPU 的默認驅動程序模式。較舊的驅動程序體系結構作為后備支持。有關更多信息,請參閱 R510 驅動程序自述 。 我們添加了一個新的 API ,以允許禁用實例化圖中的節點。在此版本中,支持僅限于內核節點。相應的 API 允許查詢節點的啟用狀態。我們還添加了禁用空內核圖節點啟動的功能。

Source

]]>
2802
在 CUDA 11 . 5 工具包中展示新功能 http://www.open-lab.net/zh-cn/blog/revealing-new-features-in-the-cuda-11-5-toolkit/ Mon, 25 Oct 2021 06:29:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=2001 Continued]]> NVIDIA 宣布 CUDA 開發環境的最新版本 CUDA 11 . 5 。 CUDA 11 . 5 專注于增強您的 CUDA 應用程序的編程模型和性能。 CUDA 繼續推動 GPU 加速的邊界,并為 HPC 、可視化、 AI 、 ML 和 DL 中的新應用打下基礎,和數據科學。 CUDA 11 . 5 有幾個重要特性。這篇文章概述了關鍵功能: CUDA 11 . 5 附帶 R510 驅動程序,該驅動程序是一個長期支援科. CUDA 11 . 5 可供下載。 此版本引入了關鍵的增強功能,以提高 CUDA 圖形的可用性和性能,而無需對應用程序進行任何修改或任何其他用戶干預。它還提高了多進程服務( MPS )的易用性。我們在 CUDA 編程指南中對異步編程模型進行了形式化。 與reductions和障礙,前綴和(也稱為scans)一起,它們是并行計算的基石。

Source

]]>
2001
使用 CUDA C ++編譯輔助工具減少應用程序構建時間 http://www.open-lab.net/zh-cn/blog/reducing-application-build-times-using-cuda-c-compilation-aids/ Mon, 25 Oct 2021 06:24:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=1996 Continued]]> CUDA 11 . 5 C ++編譯器解決了不斷增長的客戶請求。具體來說,如何減少 CUDA 應用程序構建時間。除了消除未使用的內核外, NVRTC 和 PTX 并發編譯有助于解決這個關鍵問題 CUDA C ++應用程序開發的關注點。 CUDA 11 . 5 NVCC 編譯器現在添加了對 Clang 12 . 0 作為主機編譯器的支持。我們還提供了 128 位整數支持的有限預覽版本,這在高保真計算中變得至關重要。 CUDA C ++編譯器工具鏈上的技術演練補充了編程指南(需要鏈接),并提供了在 CUDA 11 . 5 工具包版本中引入的新特性的廣泛概述。 NVRTC 編譯過程分為三個主要階段: 其中一些階段不是線程安全的,因此 NVRTC 以前會使用全局鎖序列化來自多個用戶線程的并發編譯請求。 在 CUDA 11 . 5 中,對 NVRTC 實現進行了增強,

Source

]]>
1996
人人超碰97caoporen国产