Hugging Face – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 09 Oct 2024 08:35:41 +0000 zh-CN hourly 1 196178272 新的獎勵模型有助于改善 LLM 與人類偏好的匹配 http://www.open-lab.net/zh-cn/blog/new-reward-model-helps-improve-llm-alignment-with-human-preferences/ Thu, 03 Oct 2024 08:33:19 +0000 http://www.open-lab.net/zh-cn/blog/?p=11471 Continued]]> 從人類反饋中進行強化學習(Reinforcement learning from human feedback)對于開發符合人類價值觀和偏好的 AI 系統至關重要。RLHF 使最強大的 LLMs,包括 ChatGPT、Claude 和 Nemotron 系列能夠生成出色的響應。 通過將人工反饋集成到訓練過程中,RLHF 使模型能夠學習更細致入微的行為,并做出更好地反映用戶期望的決策。這一方法提高了 AI 生成的響應的質量,并增強了 AI 應用中的信任度和可靠性。 為了幫助 AI 社區輕松采用 RLHF 來構建和自定義模型,NVIDIA 發布了 Llama 3.1-Nemotron-70B-Reward ,這是一種先進的獎勵模型,可對 LLM 生成的響應進行評分。這些分數可用于提高 LLM 響應質量,使人類與 AI 之間的互動更加積極、更具影響力。 Llama 3.1…

Source

]]>
11471
人人超碰97caoporen国产