Zhilin Wang – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 09 Oct 2024 08:35:41 +0000
zh-CN
hourly
1
196178272 -
新的獎勵模型有助于改善 LLM 與人類偏好的匹配
http://www.open-lab.net/zh-cn/blog/new-reward-model-helps-improve-llm-alignment-with-human-preferences/
Thu, 03 Oct 2024 08:33:19 +0000
http://www.open-lab.net/zh-cn/blog/?p=11471
Continued]]>
從人類反饋中進行強化學習(Reinforcement learning from human feedback)對于開發符合人類價值觀和偏好的 AI 系統至關重要。RLHF 使最強大的 LLMs,包括 ChatGPT、Claude 和 Nemotron 系列能夠生成出色的響應。 通過將人工反饋集成到訓練過程中,RLHF 使模型能夠學習更細致入微的行為,并做出更好地反映用戶期望的決策。這一方法提高了 AI 生成的響應的質量,并增強了 AI 應用中的信任度和可靠性。 為了幫助 AI 社區輕松采用 RLHF 來構建和自定義模型,NVIDIA 發布了 Llama 3.1-Nemotron-70B-Reward ,這是一種先進的獎勵模型,可對 LLM 生成的響應進行評分。這些分數可用于提高 LLM 響應質量,使人類與 AI 之間的互動更加積極、更具影響力。 Llama 3.1…
Source
]]>
11471
-
宣布推出 HelpSteer:用于構建實用 LLM 的開源數據集
http://www.open-lab.net/zh-cn/blog/announcing-helpsteer-an-open-source-dataset-for-building-helpful-llms/
Mon, 27 Nov 2023 06:37:06 +0000
http://www.open-lab.net/zh-cn/blog/?p=8368
Continued]]>
NVIDIA 最近宣布了 NVIDIA NeMo SteerLM 技術,它是 NVIDIA NeMo 的一部分。此技術允許用戶在推理期間控制大型語言模型(LLM)的響應。開發者社區對使用此方法構建自定義 LLM 表現出極大的興趣。 NVIDIA NeMo 團隊目前正在開源一個名為 Helpfulness SteerLM 數據集(HelpSteer)的資源。有了這個新資源,開發者可以迅速開始利用 SteerLM 技術,并構建先進的自定義模型。 HelpSteer 是我們團隊與 Scale AI 之間的協作成果。它與 SteerLM 技術相結合,提高了響應的真實性和一致性。現在,開發者可以根據復雜性和詳細程度等其他屬性來指導 LLM 響應,并增強最終用戶響應的整體可控性。 通過使用此新數據集和 SteerLM 技術,NVIDIA 訓練了一個 Llama 2 70B 基礎模型,
Source
]]>
8368
-
宣布推出 SteerLM:在推理期間自定義 LLM 的簡單實用技術
http://www.open-lab.net/zh-cn/blog/announcing-steerlm-a-simple-and-practical-technique-to-customize-llms-during-inference/
Wed, 11 Oct 2023 06:22:13 +0000
http://www.open-lab.net/zh-cn/blog/?p=8024
Continued]]>
近年來,隨著大語言模型 (LLMs)例如 GPT-3、Megatron-Turing、Chinchilla、PaLM-2、Falcon 和 Lama 2 在自然語言生成方面取得了顯著進展。然而,盡管這些 LLM 能夠生成類似人類的文本,但它們可能無法提供符合用戶偏好的有用且細致入微的響應。 當前改進大語言模型 (LLM) 的方法包括監督精調 (SFT),然后是從人類反饋中進行強化學習 (RLHF)。雖然 RLHF 可以提高性能,但它有一些局限性,包括訓練復雜性和缺乏用戶控制。 NVIDIA 研究團隊為了克服這些挑戰,開發并發布了 SteerLM,這是一種新的四步技術,可以簡化 LLM 的自定義,并根據您指定的屬性動態轉向模型輸出,作為 NVIDIA NeMo 的一部分。本文將深入探討 SteerLM 的工作原理,為什么它標志著一個顯著的進步,
Source
]]>
8024
人人超碰97caoporen国产