??? ???? ?? ?? ??(RLHF)? ??? ??? ???? ???? AI ???? ???? ? ??????. RLHF? ?? ChatGPT, Claude, Nemotron ???? ??? ?? ??? ??? LLM? ??? ??? ??? ? ????.
??? ???? ?? ????? ?????? RLHF? ??? ?? ??? ??? ???? ???? ??? ? ? ???? ?? ??? ?? ? ??? ?????. ??? ?? ??? AI? ???? ??? ??? ????? AI ??????? ?? ??? ???? ?????.
AI ????? ??? ???? ???????? ?? RLHF? ?? ??? ? ??? NVIDIA? LLM?? ??? ??? ??? ??? ??? ??? ??? Llama 3.1-Nemotron-70B-Reward? ??????. ??? ??? LLM ?? ??? ???? ? ???? ??? AI ?? ?? ??? ?? ????? ??? ?? ?? ? ????.
NVIDIA ????? ? ??? ??? ???? Arena Hard ????? ?? ?? ? ??? Llama 3.1-Nemotron-70B-Instruct ??? ???????.
??? ??? ??
??? ??? ??, ??? ? ??? ???? Hugging Face RewardBench ?????? ?? Llama 3.1-Nemotron-70B-Reward ??? 1?? ???? ????.
? ??? ?? ??? ???? 94.1%? ??? ????, ?? 94%? ??? ??? ???? ???? ??? ??? ? ??? ?????.

? ??? ? ?? ???? ???? ?? ??? ?????: ??, ??-??, ?? ? ??(Chat, Chat-Hard, Safety, and Reasoning). ?? ??? ???? ?? 95.1%? 98.1%? ???? ???? ??? ??? ?????. ?, ? ??? ????? ???? ?? ??? ???? ???? ?? ? ??? ?? ???? RLHF? ??? ? ????.
Nemotron-4 340B Reward? 5?? 1 ??? ??? ? ??? ??? ???? ?? ?? ??? ???? ?????. ?? ? ??? CC-BY-4.0 ????? ??? HelpSteer2 ???? ???? ????? ?????? ?? ??? ?????.
??
? ??? ????? ?? ? ?? ?? ?? ?? ??? ???? ? ?? ??? ?? ??????:
HelpSteer2?? ??? ???? ???? ? ?? ?? ??? ?? ???????. ?? ??? ??? ??? ?? ?? ?? ??? ???, ??? ?? AI? ????? ?? ???? ????? ? ??????.
???? ?? ?? ??
??? ??? ??? HelpSteer2-Preference ????? RLHF ??? ????(?? REINFORCE ????? ??) ????? ?? LLM? ?? ?? ?? ?? ?? ??? Arena Hard?? 85?? ?? ??? ??? ? ????. ?? ???? ??? ?? ??? ???? ?? ?? ? Arena Hard ?????? ?? ??? ?????.

Llama-3.1-Nemotron-70B-Instruct ??? Llama-3.1 ????? ?? ????? ?? ? ???? ? ??? ??????? ?? ???????? ??? ? ????.
NVIDIA NIM? ?? ??? ??
Nemotron Reward ??? ????, ?????, ?????? ? ???? NVIDIA ?? ??? ??? ?? ??? AI ??? ??? ????? ???? ? ??? NVIDIA NIM ?? ???????? ????? ????.
NIM? ?? ??? ??, ?? ?? API ? ?? ??? ????? ???? ??? ?? ???? ?? ???? AI ??? ?????.
????
?? ?? ?????? Llama 3.1-Nemotron-70B-Reward ??? ?????, ??? ???? ???? ???? NVIDIA ??? API ?????? ?? ???? ????? ?? ??(PoC)? ?????. Llama 3.1-Nemotron-70B-Instruct ??? ???? ???? ? ????.
ai.nvidia.com?? ?? NVIDIA ???? ????? ????? Hugging Face?? ??? ???????.
?? ?? ?? ? RLHF? ??? ? ?? ??? ?? ??? ??? HelpSteer2-Preference: ?? ???? ?? ????? ?????.
? ???? 2024? 10? 21?? ?????????.
?? ???
GTC ??: KTO? ?? ? ??, ? ????, ? ?? LLM ??
GTC ??: ??? ?? ??: ?? ?? ??? ??? ?? ??
GTC ??: ? ??? ??? ??? ?? ??? ?? ?? ?? ??? ??
NGC ????: Nemotron-4-340B-Reward
NGC ????: Mistral-Nemo-12B-Instruct
???: AI? ?? ?? ????? ??: CLLM? ?? ?? ??