Kirthi Devleker – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 14 Feb 2025 03:10:05 +0000 zh-CN hourly 1 196178272 使用 DeepSeek-R1 和推理時間縮放實現自動化 GPU 內核生成 http://www.open-lab.net/zh-cn/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/ Thu, 13 Feb 2025 03:04:29 +0000 http://www.open-lab.net/zh-cn/blog/?p=12838 Continued]]> 隨著 AI 模型擴展其功能以解決更復雜的挑戰,一種稱為“ 測試時擴展 ”或“ 推理時擴展 ”的新擴展法則正在出現。該技術也稱為 AI 推理 或 長時思考 技術,通過在推理過程中分配額外的計算資源來評估多種可能的結果,然后選擇最佳結果 (neural network),從而提高模型性能。這使得 AI 能夠以類似于人類剖析復雜問題并單獨解決這些問題以達成最終解決方案的方式,制定戰略并系統化地解決復雜問題。 在本文中,我們將介紹 NVIDIA 工程師完成的一項實驗,他們在推理過程中使用最新的開源模型之一 DeepSeek-R1 模型以及額外的計算能力來解決復雜的問題。該實驗旨在自動生成 GPU 注意力內核,這些內核在數值上是正確的,并針對不同的注意力類型進行了優化,而無需任何顯式編程。 事實證明,在某些情況下,最終結果優于由技術精湛的工程師開發的優化內核。

Source

]]>
12838
NVIDIA GB200 NVL72 提供萬億參數 LLM 訓練和實時推理 http://www.open-lab.net/zh-cn/blog/nvidia-gb200-nvl72-delivers-trillion-parameter-llm-training-and-real-time-inference/ Mon, 18 Mar 2024 07:00:33 +0000 http://www.open-lab.net/zh-cn/blog/?p=9393 Continued]]> 對萬億參數模型的興趣是什么?我們知道當今的許多用例,并且由于有望提高以下方面的能力,人們的興趣正在增加: 其優勢是巨大的,但訓練和部署大型模型的計算成本高昂且需要大量資源。旨在提供實時推理的計算高效、經濟高效且節能的系統對于廣泛部署至關重要。新的 NVIDIA GB200 NVL72 就是這樣一個系統,可以完成這項任務。 為了說明這一點,我們考慮一下多專家模型 (MoE).這些模型有助于在多個專家之間分配計算負載,并使用模型并行和管道并行跨數千個 GPU 進行訓練。提高系統效率。 然而,并行計算、高速顯存和高性能通信的新水平可以使 GPU 集群能夠應對棘手的技術挑戰。 NVIDIA GB200 NVL72 機架級架構實現了這一目標,我們將在以下博文中詳細介紹。 核心 GB200 NVL72 是 NVIDIA GB200 Grace Blackwell 超級芯片。

Source

]]>
9393
人人超碰97caoporen国产