AI 不再只是生成文本或圖像,而是要針對商業、金融、客戶和醫療健康服務中的現實應用進行深度推理、詳細解決問題并實現強大的適應性。
NVIDIA 最新推出的 Llama Nemotron Ultra 推理模型在智能和編碼基準測試中提供了領先的開源模型準確性,同時提高了計算效率。您可以在 Hugging Face 上找到模型、權重和訓練數據,以便將 AI 應用于從研究助理、編碼助手到自動化工作流的各種工作中。
NVIDIA Llama Nemotron Ultra 在先進的科學編碼和數學基準測試方面表現出色
Llama Nemotron Ultra 正在重新定義 AI 在科學推理、編碼和數學基準測試中可以實現的目標。該模型針對復雜推理、人類匹配聊天、 檢索增強生成 (RAG) 和工具使用進行了后訓練,專為滿足現實世界企業的需求 (從 copilot 和知識助手到自動化工作流程) 而構建,具有高影響力 AI 所需的深度和靈活性。
Llama Nemotron Ultra 基于 Meta Llama 3.1 構建,并使用商業和合成數據以及高級訓練技術進行優化。它專為代理式工作流而設計,提供強大的推理能力和可訪問的高性能 AI,同時降低成本。為支持更廣泛地開發推理模型,NVIDIA 開源了兩個用于后訓練的高質量訓練數據集。
這些資源為社區提供了構建高性能、高性價比模型的先機。NVIDIA 團隊最近在競爭推理基準測試 @KaggleAI 數學奧運會 上獲得了第一名,這證明了它們的有效性。然后,將數據、技術和見解應用于 Llama Nemotron Ultra。下一節將詳細介紹這三個基準測試。
GPQA 鉆石級基準測試
如圖 1、2 和 3 所示,在科學推理基準測試中,Llama Nemotron Ultra 推理模型的性能優于其他開放模型。GPQA Diamond 基準測試包含生物學、物理學和化學領域中由博士級專家開發的 198 個精心制作的問題。
這些研究生水平的問題需要多步驟推理和深度理解,而不僅僅是死記硬背或表面層面的推理。雖然擁有博士學位的人類在這一具有挑戰性的子集上的準確率平均約為 65%,但 Llama Nemotron Ultra 設定了新的標準 — 達到 76%,并成為科學推理領域領先的開放模型。這一結果可以在 Artificial Analysis 和 Vellum 排行榜上找到。



LiveCodeBench 基準測試
如圖 4、5 和 6 所示,Llama Nemotron Ultra 除了在高級科學基準測試中表現優異外,還在 LiveCodeBench(一個用于評估現實世界編碼能力的穩健基準測試)上取得了出色的性能。LiveCodeBench 專注于更廣泛的編碼任務,例如代碼生成、調試、自我修復、測試輸出預測和執行。
LiveCodeBench 中的每個問題都有日期,以確保公平的分發外評估。通過強調真正的問題解決能力而不是代碼輸出,它測試了真正的泛化。此結果可以在“ Artificial Analysis ”和“ GitHub – LiveCodeBench ”排行榜上找到。


AIME 基準測試
Llama Nemotron Ultra 還超越了 AIME 基準測試中的其他開放模型,后者通常用作評估數學推理能力的基準測試。 查看 LLM 排行榜 。

開放數據集和工具
Llama Nemotron 最關鍵的貢獻之一是其開放式設計理念。NVIDIA 發布了該模型本身以及兩個商業上可行的核心數據集,這有助于塑造其推理技能,這些技能目前在 Hugging Face Datasets 中處于領先地位。
?OpenCodeReasoning 數據集 :包含超過 73.5 萬個 Python 樣本,這些樣本來自 28,000 個不同的問題,來自熱門的競爭編程平臺。此數據集專為監督式微調 (Supervised Fine-Tuning, SFT) 而設計,使企業開發者能夠在其模型中使用蒸餾高級推理功能。通過利用 OpenCodeReasoning,企業組織可以提高 AI 系統的問題解決能力,從而實現更穩健、更智能的編碼解決方案。
?Llama-Nemotron-Post-Training 數據集 :使用公開可用的開放模型合成生成,包括 Llama、Nemotron 系列、Qwen 系列和 DeepSeek-R1 模型。該數據集旨在提高模型在關鍵推理任務中的性能,是提高數學、編碼、一般推理和指令遵循能力的理想選擇。它提供了寶貴的資源來微調模型,以更好地理解和響應復雜的多步驟指令,幫助開發者構建更強大、更一致的 AI 系統。
通過在 Hugging Face 上免費提供這些數據集,NVIDIA 旨在普及推理模型的訓練。初創公司、研究實驗室和企業現在可以從 NVIDIA 內部團隊使用的相同資源中受益,從而加速 代理式 AI 的更廣泛采用,即可以在復雜的工作流程中自主推理、規劃和行動的 AI。
企業就緒型功能:速度、準確率和靈活性
Llama Nemotron Ultra 是一種商用模型,可用于各種代理式 AI 用例,包括編碼助手、客戶服務聊天機器人、自主研究智能體和面向任務的助手。它在科學推理和編碼基準測試方面的強大性能使其成為需要準確性、適應性和多步驟問題解決能力的現實應用的強大基礎。
Llama Nemotron Ultra 提供出色的模型準確性,同時在開放推理模型類別中提供領先的吞吐量。其效率 (吞吐量) 直接轉化為成本節約。通過使用 Neural Architecture Search (NAS) 方法,我們可在保持模型性能的同時大幅減少模型的內存占用,從而在數據中心環境中運行模型所需的工作負載和 GPU 數量更少。

在此過程之后,模型經歷了全面的后訓練流程,包括監督式微調和強化學習 (RL) ,以增強模型的能力,使其在推理和非推理任務方面表現出色。該模型支持推理`On` 和`Off` 功能,允許企業僅在需要時激活推理,并減少更簡單的非代理任務的開銷。
開始使用
NVIDIA 已將 Llama Nemotron Ultra 封裝為 NVIDIA NIM 推理微服務,并針對高吞吐量和低延遲進行了優化。NVIDIA NIM 利用行業標準 API,在本地或云端提供無縫、可擴展的 AI 推理。
- 直接在瀏覽器中試用 Llama Nemotron Ultra NIM
- 從 Hugging Face 下載 Llama Nemotron Ultra 模型
- 要為您的用例訓練自定義推理模型,請下載 OpenCodeReasoning Dataset 和 Llama-Nemotron-Post-Training Dataset 并自定義
?