Development & Optimization – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Tue, 11 Mar 2025 09:04:54 +0000 zh-CN hourly 1 196178272 優化 CUDA C++ 編譯時間 http://www.open-lab.net/zh-cn/blog/optimizing-compile-times-for-cuda-c/ Mon, 10 Mar 2025 08:58:34 +0000 http://www.open-lab.net/zh-cn/blog/?p=13121 Continued]]> 在現代軟件開發中,時間是非常寶貴的資源,尤其是在編譯過程中。對于在大規模 GPU 加速應用程序上使用 CUDA C++的開發者而言,優化編譯時間可以顯著提高工作效率并簡化整個開發周期。 使用 編譯器進行離線編譯時,高效的編譯時間使您能夠快速構建代碼并保持勢頭。在使用 nvrtc 的即時 (JIT) 編譯環境中,最小化編譯時間有助于減少執行或運行時延遲,并提高應用程序性能。如果您在實時系統或交互式應用程序上工作,您將從盡可能快的編譯時間中受益匪淺。 理解編譯瓶頸的來源并不總是那么簡單。CUDA 編譯過程十分復雜,因為編譯器會對代碼執行各種優化和轉換,幾乎看不到代碼的哪些部分需要很長時間才能編譯。 例如,看似簡單的代碼行可能會觸發復雜的模板實例化,從而導致其他模板的遞歸擴展,進而消耗過多的編譯時間。如果不清楚幕后發生了什么,您就不知道編譯時間較長的根本原因是什么,

Source

]]>
13121
NVIDIA cuDSS 提高工程和科學計算中的求解器技術 http://www.open-lab.net/zh-cn/blog/nvidia-cudss-advances-solver-technologies-for-engineering-and-scientific-computing/ Tue, 25 Feb 2025 08:54:08 +0000 http://www.open-lab.net/zh-cn/blog/?p=13042 Continued]]> NVIDIA cuDSS 是第一代稀疏直接求解器庫,旨在加速工程和科學計算。cuDSS 正越來越多地應用于數據中心和其他環境,并支持單 GPU、多 GPU 和多節點(MGMN)配置。 cuDSS 已成為加速多個領域 (例如結構工程、流體動力學、電磁學、電路模擬、優化和 AI 輔助工程問題) 的計算機輔助工程 (CAE) 工作流程和科學計算的關鍵工具。 本文重點介紹了 cuDSS v0.4.0 和 cuDSS v0.5.0 中提供的一些關鍵性能和可用性功能 (如表 1 中總結的內容),cuDSS v0.4.0 可顯著提升分解和求解步驟的性能,同時還引入了一些新功能,包括內存預測 API、自動混合內存選擇和可變批量支持。cuDSS v0.5.0 增加了主機執行模式,這對較小的矩陣特別有利,并且在分析階段使用混合內存模式和主機多線程實現了顯著的性能提升,

Source

]]>
13042
制造業產品設計工作流程的生成式 AI 轉型 http://www.open-lab.net/zh-cn/blog/transforming-product-design-workflows-in-manufacturing-with-generative-ai/ Thu, 20 Feb 2025 03:03:37 +0000 http://www.open-lab.net/zh-cn/blog/?p=12935 Continued]]> 長期以來,制造行業的傳統設計和工程工作流程一直以順序迭代的方法為特征,這種方法通常既耗時又需要大量資源。這些傳統方法通常涉及需求收集、概念設計、詳細設計、分析、原型設計和測試等階段,每個階段都取決于之前迭代的結果。 雖然這種結構化方法可以控制復雜的項目,但也存在重大挑戰。由于時間限制和資源可用性,工程師在設計探索中通常會面臨限制,導致項目時間延長和成本增加。物理測試的需求可能會導致更長的開發周期和更高的成本,在汽車和航空航天等行業中尤為如此。此外,傳統工作流程的順序性會導致效率低下,因為錯誤和更改僅在后期階段才能識別,從而導致成本高昂的修訂和延遲。 設計和工程領域的 AI 通過提供更快速、更高效的創新解決方案,正在改變這些傳統工作流程。主要用例包括 AI 驅動的生成式設計,它使工程師能夠根據指定的參數和約束條件生成多個設計方案,從而減少物理迭代的需求,并顯著加速設計流程。

Source

]]>
12935
使用 DeepSeek-R1 和推理時間縮放實現自動化 GPU 內核生成 http://www.open-lab.net/zh-cn/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/ Thu, 13 Feb 2025 03:04:29 +0000 http://www.open-lab.net/zh-cn/blog/?p=12838 Continued]]> 隨著 AI 模型擴展其功能以解決更復雜的挑戰,一種稱為“ 測試時擴展 ”或“ 推理時擴展 ”的新擴展法則正在出現。該技術也稱為 AI 推理 或 長時思考 技術,通過在推理過程中分配額外的計算資源來評估多種可能的結果,然后選擇最佳結果 (neural network),從而提高模型性能。這使得 AI 能夠以類似于人類剖析復雜問題并單獨解決這些問題以達成最終解決方案的方式,制定戰略并系統化地解決復雜問題。 在本文中,我們將介紹 NVIDIA 工程師完成的一項實驗,他們在推理過程中使用最新的開源模型之一 DeepSeek-R1 模型以及額外的計算能力來解決復雜的問題。該實驗旨在自動生成 GPU 注意力內核,這些內核在數值上是正確的,并針對不同的注意力類型進行了優化,而無需任何顯式編程。 事實證明,在某些情況下,最終結果優于由技術精湛的工程師開發的優化內核。

Source

]]>
12838
提升 AI 性能的 GPU 內存基礎知識 http://www.open-lab.net/zh-cn/blog/gpu-memory-essentials-for-ai-performance/ Wed, 15 Jan 2025 06:45:46 +0000 http://www.open-lab.net/zh-cn/blog/?p=12709 Continued]]> 生成式 AI 徹底改變了人們將想法變為現實的方式,而代理 AI 代表著這一技術變革的下一次飛躍。通過利用復雜的自主推理和迭代規劃,AI 智能體可以非常高效地處理復雜的多步驟問題。 隨著 AI 不斷革新各行各業,對在本地運行 AI 模型的需求激增。無論是開發 AI 還是使用 AI,在本地運行 AI 模型都具有許多優勢,包括增強隱私、降低延遲以及離線工作的能力。 本地 AI 正在改變組織的 AI 開發和部署方式。通過在本地處理數據,開發者能夠繼續進行 AI 實驗和原型設計,而無需付出持續使用云的代價。本地 AI 成為創新和原型的測試平臺,可實現快速迭代和想法測試。與此同時,云基礎架構和數據中心可處理更密集的工作負載和大規模部署。 在本地運行 AI 模型還可滿足某些行業特定用例的獨特需求。在醫療健康領域,它可以實現安全的患者數據分析和快速診斷。

Source

]]>
12709
NVIDIA OptiX 著色器綁定表優化實現高效光線追蹤 http://www.open-lab.net/zh-cn/blog/efficient-ray-tracing-with-nvidia-optix-shader-binding-table-optimization/ Tue, 17 Dec 2024 09:40:56 +0000 http://www.open-lab.net/zh-cn/blog/?p=12501 Continued]]> NVIDIA OptiX 是通過 CUDA 實現 GPU 加速光線追蹤的 API,通常用于渲染包含各種物體和材質的場景。在 OptiX 啟動期間,當光線與幾何基元相交時,系統會執行命中著色器。著色器綁定表 (Shader Binding Table, SBT) 回答了為給定的交集執行哪個著色器的問題。SBT 還可用于將輸入數據映射到著色運算。 本文介紹了在應用中布局 Shader Binding Table(SBT)的幾種不同方法,以及著色器訪問其數據的不同方法。通過盡可能減少 SBT 和著色數據,您可以節省內存、提高性能并簡化 SBT 本身的管理。 光線追蹤應用通常會為每個網格對象存儲兩種主要類型的數據:幾何信息 (例如著色法線) 和材質參數 (例如漫反射或粗糙度參數)。材質著色器會訪問這些數據,以執行計算,例如當前交叉點的光照。

Source

]]>
12501
2024 年熱門文章:NVIDIA NIM、語言模型突破和數據科學優化的精要 http://www.open-lab.net/zh-cn/blog/top-posts-of-2024-highlight-nvidia-nim-llm-breakthroughs-and-data-science-optimization/ Mon, 16 Dec 2024 05:14:42 +0000 http://www.open-lab.net/zh-cn/blog/?p=12525 Continued]]> 對于使用 NVIDIA 技術的開發者、研究人員和創新者來說,2024 年又是具有里程碑意義的一年。從 AI 推理領域的突破性進展到助力開源貢獻,這些博客文章重點介紹了最受讀者反響的突破性成果。 NVIDIA NIM 提供經過優化的推理微服務,用于大規模部署 AI 模型 NVIDIA NIM 于 2024 年推出,是一套易于使用的推理微服務,用于加速基礎模型的部署。開發者可以在盡可能減少配置更改的情況下優化推理工作流,從而實現無縫、高效的擴展。 NVIDIA NIM 現為開發者計劃成員免費開放 為了普及 AI 部署,NVIDIA 為其開發者計劃成員提供 NIM 的免費訪問權限,使更多的開發者能夠試驗和實施 AI 解決方案。 NVIDIA GB200 NVL72 提供萬億參數 LLM 訓練和實時推理…

Source

]]>
12525
使用 EMBark 加速大規模推薦系統嵌入式訓練優化 http://www.open-lab.net/zh-cn/blog/boost-large-scale-recommendation-system-training-embedding-using-embark/ Wed, 20 Nov 2024 08:27:41 +0000 http://www.open-lab.net/zh-cn/blog/?p=12179 Continued]]> 推薦系統是互聯網行業的核心,而高效地訓練這些系統對于各大公司來說是一個關鍵問題。大多數推薦系統是深度學習推薦模型(DLRMs),包含數十億甚至數百億個 ID 特征。圖 1 示出了一個典型的結構。 近年來, NVIDIA Merlin HugeCTR 和 TorchRec 等 GPU 解決方案通過在 GPU 上存儲大規模 ID 特征嵌入并對其進行并行處理,顯著加速了 DLRM 的訓練。與 CPU 解決方案相比,使用 GPU 內存帶寬可實現顯著改進。 與此同時,隨著訓練集群中使用的 GPU 數量增加(從 8 個 GPU 增加到 128 個 GPU),我們發現嵌入的通信開銷在總訓練開銷中占較大比例。在一些大規模訓練場景中(例如在 16 個節點上),它甚至超過了一半(51%)。 這主要有兩個原因: 1、隨著集群中 GPU 數量的增加,每個節點上的嵌入表數量逐漸減少,

Source

]]>
12179
深度學習 AI 模型無需手術即可檢測乳腺癌擴散 http://www.open-lab.net/zh-cn/blog/deep-learning-ai-model-identifies-breast-cancer-spread-without-surgery/ Thu, 31 Oct 2024 09:29:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=11849 Continued]]> 在診斷癌細胞是否擴散(包括擴散到附近的淋巴結)時, 新的深度學習模型 可以減少對手術的需求(也稱為轉移)。該 AI 工具由德克薩斯大學西南醫學中心的研究人員開發,通過分析 MRI 和臨床數據的時間序列來識別轉移,從而為醫生制定治療計劃提供關鍵的非侵入性支持。這一進步有助于更及時、更準確地進行癌癥評估,幫助許多患者避免不必要的手術并改善治療效果。 大多數與乳腺癌相關的死亡病例都是由轉移性乳腺癌引起的。在美國,大約三分之一被診斷患有早期乳腺癌的女性會發展為轉移性癌癥。然而,早期發現和治療可以減緩疾病進展,幫助醫生和患者管理癥狀,并最大限度地提高治療效果。 在檢查癌癥是否已擴散到淋巴結時,醫生通常依靠哨點淋巴結活檢(SLNB)。該過程包括在癌癥部位附近注射染料和放射性溶液,以識別先流入腫瘤區域的哨點淋巴結。然后,這些結節被手術切除并進行活檢。如果在哨點淋巴結中發現癌細胞,

Source

]]>
11849
人人超碰97caoporen国产