• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    生成式人工智能/大語言模型

    新的獎勵模型有助于改善 LLM 與人類偏好的匹配

    從人類反饋中進行強化學習(Reinforcement learning from human feedback)對于開發符合人類價值觀和偏好的 AI 系統至關重要。RLHF 使最強大的 LLMs,包括 ChatGPT、Claude 和 Nemotron 系列能夠生成出色的響應。

    通過將人工反饋集成到訓練過程中,RLHF 使模型能夠學習更細致入微的行為,并做出更好地反映用戶期望的決策。這一方法提高了 AI 生成的響應的質量,并增強了 AI 應用中的信任度和可靠性。

    為了幫助 AI 社區輕松采用 RLHF 來構建和自定義模型,NVIDIA 發布了 Llama 3.1-Nemotron-70B-Reward ,這是一種先進的獎勵模型,可對 LLM 生成的響應進行評分。這些分數可用于提高 LLM 響應質量,使人類與 AI 之間的互動更加積極、更具影響力。

    #1 獎勵模式?

    Llama 3.1-Nemotron-70B-Reward 模型目前在 Hugging Face 的 RewardBench 排行榜上 排名第一,用于評估獎勵模型的能力、安全性和陷阱。

    該模型在整體 RewardBench 中的得分為 94.1%,這意味著它可以識別與人類偏好一致的響應 94% 的時間。

    Screenshot of the leaderboard shows the ranking of various reward models and their accuracy across different categories. The model on the top of the RewardBench leaderboard is NVIDIA’s Llama-3.1-Nemotron-70B Reward model.
    圖 1. Llama-3.1-Nemtron-70B-Reward 在各種類別的 RewardBench 排行榜上名列前茅。

    該模型在聊天(Chat)、聊天(Chat-Hard)、安全(Safety)和推理(Reasoning)這四個類別中均表現出色。其在安全(Safety)和推理(Reasoning)方面的表現令人印象深刻,準確率分別為 95.1%和 98.1%。這意味著該模型可以安全地拒絕潛在的不安全響應,并在數學和代碼等領域支持 RLHF。

    此模型的大小僅為 Nemotron-4 340B 獎勵的五分之一,可提供高計算效率和超高的準確性。此外,此模型僅根據 CC-BY-4.0 許可的 HelpSteer2 數據 進行訓練,因此適用于企業用例。

    實施?

    為訓練此模型,我們結合了兩種常用方法,以充分發揮兩者的優勢:

    我們使用 HelpSteer2 中發布的數據使用這兩種方法進行訓練。模型性能的一個重要貢獻是高數據質量,我們精心策劃并發布這些數據,以推進面向所有人的 AI。

    借助 NVIDIA NIM 輕松部署?

    Nemotron Reward 模型封裝為 NVIDIA NIM 推理微服務,可簡化和加速生成式 AI 模型在 NVIDIA 加速基礎設施(包括云、數據中心和工作站)中的部署。

    NIM 使用推理優化引擎、行業標準 API 和預構建容器,為需求提供高吞吐量 AI 推理。

    開始使用?

    立即通過瀏覽器體驗 Llama 3.1-Nemotron-70B-Reward 模型 ,或進行大規模測試,并使用在完全加速的堆棧上運行的 NVIDIA 托管 API 端點構建概念驗證(PoC)。

    訪問 ai.nvidia.com ,獲取免費的 NVIDIA 云積分,或從 Hugging Face 下載模型。

    有關如何訓練模型以及如何將其用于 RLHF 的更多信息,請參閱 HelpSteer2-Preference:Complementing Ratings with Preferences。

    ?

    0

    標簽

    人人超碰97caoporen国产