企業組織正在采用 AI 智能體 來提高生產力并簡化運營。為了更大限度地發揮影響,這些智能體需要強大的推理能力來解決復雜的問題,發現隱藏的聯系,并在動態環境中自主做出邏輯決策。
由于推理模型能夠解決復雜問題,因此已成為代理式 AI 生態系統的關鍵部分。通過使用長思考、Best-of-N 或自我驗證等技術,這些模型可以更好地處理代理式流程不可或缺的推理密集型任務。
從自動化客戶支持到優化供應鏈和執行財務策略,推理模型正在為各種應用提供支持。在物流領域,它們通過模擬假設場景 (例如在中斷運輸期間改變貨運路線) 來提高效率。在科學研究中,它們有助于生成假設和多步驟解決問題。在醫療健康領域,它們增強了診斷和治療規劃。通過實現精確的邏輯推理,這些模型正在推動各行各業實現更可靠、更可擴展的 AI 解決方案。
本文將介紹 NVIDIA Llama Nemotron 推理模型系列 。我們將介紹構建這一系列先進模型的過程。我們還將探索如何在 AI 智能體和協作式多智能體系統 中使用這些模型,以推動推理之外的工作,并將其用于開放式的通用領域任務。
NVIDIA Llama Nemotron 推理模型系列
今天,NVIDIA 宣布推出 NVIDIA Llama Nemotron ,這是一個開放的領先 AI 模型系列,提供卓越的推理能力、計算效率和供企業使用的開放許可證。
該系列有三種規模,可根據開發者的用例、計算可用性和準確性要求,為其提供合適的模型大小。
- Nano:8B 從 Llama 3.1 8B 中提煉而成,可在 PC 和邊緣上實現更高的準確性。
- Super:從 Llama 3.3 70B 中提取出 49B,可在數據中心 GPU 上實現更高的準確性和吞吐量。此模型是本文的重點。
- Ultra:從 Llama 3.1 405B 中提煉出的 253B,可在多 GPU 數據中心服務器上實現更高的代理精度 (即將推出)。
帶有推理模型的 Llama Nemotron 在行業標準推理和代理基準測試中提供了領先的準確性,這些基準測試包括 GPQA Diamond、AIME 2024、AIME 2025、MATH 500 和 BFCL,以及 Arena Hard。此外,這些模型具有商業可行性,因為它們基于開放的 Llama 模型構建,并基于 NVIDIA 審查的數據集以及使用開放模型合成生成的數據進行訓練。
除了本文中概述的方法,以及該模型已獲得許可,我們還將分享 Hugging Face 上的后訓練流程中使用的大部分數據。這些數據包括后訓練數據,包含近 3000 萬個高質量數據樣本,重點關注數學、代碼、指令遵循、安全、聊天和推理功能。
您可以在 Hugging Face 上詳細了解數據集。我們的團隊致力于持續發布數據。我們還公開了 HelpSteer3,作為我們之前在 HelpSteer 和 HelpSteer2 方面工作的延續。
測試時擴展概述
在深入探討 NVIDIA 如何創建這些令人驚嘆的模型之前,我們需要簡要解釋測試時擴展和推理,以及它們對使用 AI 進行構建的組織的重要性。
測試時擴展是一種在推理期間應用更多計算的技術,以便通過各種選項進行思考和推理,從而改善模型或系統的響應。這有助于在關鍵的下游任務上擴展模型或系統的性能。
通過問題進行推理是一項復雜的任務,而測試時計算是使這些模型達到對前面提到的用例有用所需的推理水平的重要組成部分。讓模型在推理過程中使用更多資源,為探索更多可能性開辟了更大的空間。這增加了模型建立所需連接的可能性,或者在沒有額外時間的情況下達到它可能無法達到的解決方案的可能性,例如使用 GPU 或其他專用硬件加速推理過程,或者使用像 cuOpt 和 cuQuantum 這樣的庫來優化計算。
雖然推理和測試時擴展對代理式工作流中的許多重要任務大有益,但在當前的先進推理模型中存在一個常見問題。具體來說,開發者無法選擇模型推理的時間,因為他們無法在“推理”和“推理”操作之間進行選擇。Llama Nemotron 系列模型通過系統提示打開或關閉推理,使模型在非推理問題領域也保持有用性。
使用推理構建 Llama Nemotron
Llama 3.3 Nemotron 49B Instruct 基于 Llama 3.3 70B Instruct。它經歷了一個廣泛的后訓練階段,以減小模型的大小,同時保留并增強模型的原始功能。
使用了后訓練的三個廣泛階段:
- 蒸餾到神經架構搜索和知識蒸餾 。如需了解更多信息,請參閱 Puzzle:基于 Distillation-Based NAS 的 NAS,用于推理優化型 LLM。
- 利用 NVIDIA 創建的 60B 個合成數據令牌(代表 3000 萬個生成樣本中的 400 萬個)進行監督式微調,以確保在推理開啟和推理關閉領域的高質量內容。在此階段,該團隊利用 NVIDIA NeMo 框架 高效擴展訓練后工作流。
- 通過 NVIDIA NeMo 完成強化學習 (RL) 階段,以增強聊天功能和指令遵循性能。這可確保對各種任務做出高質量的響應。

神經架構搜索 (Neural Architecture Search, NAS) 技術報告詳細介紹了第一階段 (圖 1 中的步驟 1 和 2) 。在簡化的形式中,可以將其視為通過多種蒸餾和 NAS 方法,將每個模型的參數計數“合理地調整”為基于特定旗艦硬件的預先選定的最佳計數。模型后訓練的第二階段 (圖 1 中的步驟 3 和 4) 涉及合成數據驅動的監督式微調,旨在實現一些重要目標。第一個目標是提高多項任務的非推理性能。后訓練流程的這一部分 (第 3 步) 利用 NVIDIA 精心策劃的提示,通過基準模型 (Llama 3.3 70B Instruct) 以及 Qwen2.5 7B Math 和 Coder 模型創建合成數據。然后,NVIDIA 對這些數據進行篩選和審查,以用于增強 Chat、Math 和 Code 任務的推理性能。此外,我們還付出了大量努力,確保 Instruction Following 和 Function Calling 的推理性能在此階段達到一流水平。
第二個目標(第 4 步)是基于精心策劃的 DeepSeek-R1 數據(僅適用于數學、代碼和科學)進行訓練,從而創建出色的推理模型。每個提示和響應都經過精心策劃,確保在推理增強過程中只使用高質量的數據,并借助 NVIDIA NeMo 框架 。這種方法可確保我們有選擇地將 DeepSeek-R1 的強大推理能力運用到其擅長的領域。
“Reason ON/OFF” (圖 1 中的步驟 3 和 4) 是同時訓練的,并且僅因系統提示而有所區別,這意味著生成的模型既可以作為推理模型,也可以作為帶有開關 (系統提示) 的傳統 LLM 在每種模式之間進行切換。這樣做的目的是讓組織可以使用一個大小合適的模型來執行推理和非推理任務。
最后階段使用強化學習來更好地與用戶意圖和期望保持一致 (圖 1 中的步驟 5 和 6) 。該模型在執行這兩項任務時利用 REINFORCE 算法和基于啟發式驗證器進行強化學習,以實現 Instruction Following 和 Function Calling 增強 (步驟 5) 。之后,使用 Reinforcement Learning from Human Feedback (RLHF) ,使用 HelpSteer2 數據集和 NVIDIA Llama 3.1 Nemotron Reward 模型 (步驟 6) 將最終模型與聊天用例對齊。
這些細致的后訓練步驟可生成一流的推理模型,而且本質上不會影響函數調用和指令遵循性能,即在這兩種范式之間進行切換。此訓練后工作流創建的模型在代理式 AI 工作流和工作流的每個步驟中都有效,同時為旗艦 NVIDIA 硬件保持最佳參數數量。
借助 Llama Nemotron Super 在基準測試中實現領先的準確性
NVIDIA Llama Nemotron 模型將 DeepSeek-R1 等模型的強大推理能力與 Meta 的 Llama 3.3 70B Instruct 的出色的世界知識和可靠工具調用以及指令遵循相結合,從而生成在關鍵代理任務中領先的模型。


使用 Llama Nemotron Super 為系統提供動力支持,以執行復雜任務
本節將介紹一種新的測試時擴展方法,該方法使用由 NVIDIA Llama 3.3 Nemotron 49B Instruct 提供支持的多智能體協作系統。它以 92.7 的分數在 Arena Hard 基準測試 (預測 Chatbot Arena 性能的關鍵指標) 中實現了最先進的性能。有關更多詳細信息,請參閱 專用反饋和編輯模型為開放式通用域任務提供推理時間縮放功能 。
許多測試時擴展方法主要用于解決具有可驗證解決方案的問題,包括數學問題、邏輯推理和競爭性編程。然而,許多重要任務都沒有可驗證的解決方案,包括提出研究想法、撰寫研究論文或開發有效的方法來交付復雜的軟件產品,例如使用 GPU、PyTorch 或 pandas 等工具。
Llama Nemotron 測試時縮放系統解決了這一限制。該方法采用更人性化的方法來解決這些問題,并涉及以下步驟:
- 針對某個問題集思廣益地制定一個或多個初始解決方案
- 從朋友、同事或其他專家處獲取有關解決方案的反饋
- 根據提供的反饋編輯初始解決方案
- 在合并編輯后,選擇最具前景的解決方案
這種方法能夠在廣泛的通用域任務中利用測試時擴展,例如在使用 GPU 和 PyTorch 等技術時。
對于這種多智能體協作系統的概念化,一個很好的類比是團隊合作,為沒有預定義解決方案的問題提出最佳解決方案。相比之下,長思考可以被概念化為一個經過訓練的人長期思考一個問題,得出一個可以用答案進行檢查的答案。
開始使用 NVIDIA Llama Nemotron 模型
他們將蒸餾、神經架構搜索、強化學習和傳統對齊策略巧妙地結合在一起,創建了出色的 NVIDIA Llama Nemotron 推理模型 。借助這些模型,您可以選擇大小合適的模型,這些模型不會影響功能,并且經過構建可保留其指令遵循和函數調用優勢,確保它們在代理式 AI 系統中具有力倍增能力。您可以利用這些模型為多智能體協作系統提供支持,以處理艱巨的開放式通用領域任務。
除了作為此版本的一部分而開放源代碼的模型外, 大量數據 用于訓練過程中每個步驟的 recipe (通過技術報告) 以及 test-time scaling 系統將發布以供許可使用。您可以使用這兩種方法構建自己的自定義模型 SFT 以及 強化學習 使用 NVIDIA NeMo 框架。
探索此模型系列,并 在 build.nvidia.com 上開始原型設計 。對于生產,在任何 GPU 加速系統上部署專用的 API 端點,并由 NVIDIA AI Enterprise 提供支持,以實現高性能和可靠性。或者,只需通過 NVIDIA 生態系統合作伙伴 (包括 Baseten 、 Fireworks AI 和 Together AI ) 單擊幾下,即可獲得專用的托管 NVIDIA NIM 端點。
?