使用 DeepSeek-R1 和推理時間縮放實現自動化 GPU 內核生成

Thu, 13 Feb 2025 03:04:29 +0000

隨著 AI 模型擴展其功能以解決更復雜的挑戰，一種稱為“ 測試時擴展 ”或“ 推理時擴展 ”的新擴展法則正在出現。該技術也稱為 AI 推理或長時思考技術，通過在推理過程中分配額外的計算資源來評估多種可能的結果，然后選擇最佳結果 (neural network)，從而提高模型性能。這使得 AI 能夠以類似于人類剖析復雜問題并單獨解決這些問題以達成最終解決方案的方式，制定戰略并系統化地解決復雜問題。在本文中，我們將介紹 NVIDIA 工程師完成的一項實驗，他們在推理過程中使用最新的開源模型之一 DeepSeek-R1 模型以及額外的計算能力來解決復雜的問題。該實驗旨在自動生成 GPU 注意力內核，這些內核在數值上是正確的，并針對不同的注意力類型進行了優化，而無需任何顯式編程。事實證明，在某些情況下，最終結果優于由技術精湛的工程師開發的優化內核。

Source

]]>

Terry Chen – NVIDIA 技術博客

使用 DeepSeek-R1 和推理時間縮放實現自動化 GPU 內核生成