NVIDIA 最近宣布了 NVIDIA NeMo SteerLM 技術,它是 NVIDIA NeMo 的一部分。此技術允許用戶在推理期間控制大型語言模型(LLM)的響應。開發者社區對使用此方法構建自定義 LLM 表現出極大的興趣。
NVIDIA NeMo 團隊目前正在開源一個名為 Helpfulness SteerLM 數據集(HelpSteer)的資源。有了這個新資源,開發者可以迅速開始利用 SteerLM 技術,并構建先進的自定義模型。
HelpSteer 是我們團隊與 Scale AI 之間的協作成果。它與 SteerLM 技術相結合,提高了響應的真實性和一致性。現在,開發者可以根據復雜性和詳細程度等其他屬性來指導 LLM 響應,并增強最終用戶響應的整體可控性。
通過使用此新數據集和 SteerLM 技術,NVIDIA 訓練了一個 Llama 2 70B 基礎模型,該模型在性能上優于 Llama 2-70B 聊天模型。它在 MT 工作臺 和 TruthfulQA MC2 基準測試中表現出色。
我們來深入探討如何構建此數據集。
收集高質量的人類反饋
我們收集了大約 1 萬條高質量提示,并使用內部 LLM 為每個提示生成了 4 條回復。Scale AI 隨后聘請了人類專家,以 0 – 4 的比例評估每個回應。Scale 的生成式 AI 數據引擎結合了自動化與人類智能,快速生成針對特定 AI 目標和數據需求定制的訓練數據。
數據集中的所有響應均根據五個屬性進行標注,即:
- 幫助:評估響應在多大程度上滿足了提示的要求。
- 正確性:反應內容是否包含準確且相關的信息,沒有產生幻覺或虛假信息。
- 一致性:響應的清晰度、邏輯性和一致性。
- 復雜性:詞匯量和句子結構的復雜程度(從基礎到專家水平)。
- 詳細程度:響應內容的簡潔或詳細程度,相對于提示符的要求。
我們選擇這些屬性來補充 OpenAssistant (用于訓練原始 SteerLM 模型的數據集)中的屬性。
數據集樣本具有以下結構:
### Prompt
What is the spiciest chili in the world? Is it a type of chili or made from another ingredient?
### Response 1
The spiciest chili in the world is the Carolina Reaper. It is a type of chili that is made from the chili pepper variety.
### Label 1
helpfulness:1,correctness:1,coherence:3,complexity:1,verbosity:1
### Response 2
The spiciest chili in the world is the Carolina Reaper, which is a type of chili pepper. It was created by a man named Ed Currie and is a cross between a Ghost Pepper and a Red Habanero. It is known for its extreme heat, which is measured at over one million Scoville units. The Carolina Reaper is made from a chili pepper that has been selectively bred for its high levels of capsaicin, the compound that gives chili peppers their spicy heat. While it is not made from any other ingredient, some people may add it to other ingredients to make a spicy sauce or salsa.
### Label 2
helpfulness:4,correctness:4,coherence:4,complexity:2,verbosity:2
使用此數據集訓練的 LLM 在事實方面更加正確,且響應更加一致,這使得它們在客戶服務、教育等多個行業中更具幫助。用戶還可以在推理時調整語言模型的首選復雜性和詳細程度。
例如,開發者可以構建 LLM,向中學生或母語不是英語的人解釋美國歷史等復雜主題,所有這些都只需一次自定義運行即可。
Lama2-70B-SteerLM – 聊天評估結果
使用 HelpSteer 數據集以及 SteerLM 技術訓練的 Llama 2-70B 基礎模型在多個基準測試中的表現優于 Llama 2 – 70B 聊天模型。
下表比較了兩個模型在兩個熱門基準測試中的性能指標:MT 工作臺 和 TruthfulQA MC2。分數越高表示性能越好,這意味著與 Lama 2-70B 聊天模型相比,SteerLM 模型在實用性和真實性方面表現更佳。
基準測試 | Lama 2-70B 聊天 | Lama2-70B-SteerLM 聊天 |
MT 工作臺 | 6.86 | 7.54 |
TruthfulQA MC2 | 0.528 | 0.561 |
在圖 1 中,我們觀察到,在 MT Bench 的大多數類別中,Lama2-70B-SteerLM-Chat 模型的表現優于 Lama 2 – 70B 聊天模型。

Lama2-70B-SteerLM-Chat 模型響應
我們來看看此 SteerLM 模型的一些示例。對于相同的提示,該模型根據不同的復雜程度提供了不同的響應。開發者可以使用相同的模型,并在推理時針對不同的用例對其進行定制。
Prompt
Can we travel at the speed of light?
Low-Complexity Response
'No, it is not possible to travel at the speed of light. The speed of light is a fundamental constant of nature and is the maximum speed at which information can be transmitted in a vacuum. According to our current understanding of physics, it is not possible for any matter or energy to reach or exceed the speed of light.'
High-Complexity Response
According to our current understanding of physics, it is not possible to travel at the speed of light. This is because as an object approaches the speed of light, its mass would increase infinitely, making it impossible to reach the speed of light. This effect is described by Einstein's theory of relativity and is known as the "mass-energy equivalence. Additionally, as an object approaches the speed of light, its length would contract and time would slow down, making it impossible to reach the speed of light from an observer's perspective. Therefore, it is currently believed that it is not possible for any material object to travel at the speed of light, and the speed of light is considered to be the upper limit for the speed of any matter or energy in the universe.
了解詳情
如需詳細了解 HelpSteer 數據集以及如何使用 NeMo 框架和 SteerLM 技術訓練自定義 LLM,
- 您可以直接在瀏覽器上體驗 Llama2-70B-SteerLM-Chat 模型,詳情請訪問 NVIDIA NGC 目錄
- 在 ArXiv 上閱讀提交的技術論文
- 從 HuggingFace 下載數據集
- 閱讀關于使用 SteerLM 構建自定義 LLM 的教程
?