• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • Generative AI / LLMs

    ???? ???? ???? ??? ??? ??? ??? LLM ??

    Reading Time: 3 minutes

    ??? ???? ?? ?? ??(RLHF)? ??? ??? ???? ???? AI ???? ???? ? ??????. RLHF? ?? ChatGPT, Claude, Nemotron ???? ??? ?? ??? ??? LLM? ??? ??? ??? ? ????.

    ??? ???? ?? ????? ?????? RLHF? ??? ?? ??? ??? ???? ???? ??? ? ? ???? ?? ??? ?? ? ??? ?????. ??? ?? ??? AI? ???? ??? ??? ????? AI ??????? ?? ??? ???? ?????.

    AI ????? ??? ???? ???????? ?? RLHF? ?? ??? ? ??? NVIDIA? LLM?? ??? ??? ??? ??? ??? ??? ??? Llama 3.1-Nemotron-70B-Reward? ??????. ??? ??? LLM ?? ??? ???? ? ???? ??? AI ?? ?? ??? ?? ????? ??? ?? ?? ? ????.

    NVIDIA ????? ? ??? ??? ???? Arena Hard ????? ?? ?? ? ??? Llama 3.1-Nemotron-70B-Instruct ??? ???????.

    ??? ??? ??

    ??? ??? ??, ??? ? ??? ???? Hugging Face RewardBench ?????? ?? Llama 3.1-Nemotron-70B-Reward ??? 1?? ???? ????.

    ? ??? ?? ??? ???? 94.1%? ??? ????, ?? 94%? ??? ??? ???? ???? ??? ??? ? ??? ?????.

    ?? 1. ??? ?????? RewardBench ???? 1?? ??? Llama-3.1-Nemtron-70B-Reward

    ? ??? ? ?? ???? ???? ?? ??? ?????: ??, ??-??, ?? ? ??(Chat, Chat-Hard, Safety, and Reasoning). ?? ??? ???? ?? 95.1%? 98.1%? ???? ???? ??? ??? ?????. ?, ? ??? ????? ???? ?? ??? ???? ???? ?? ? ??? ?? ???? RLHF? ??? ? ????.

    Nemotron-4 340B Reward? 5?? 1 ??? ??? ? ??? ??? ???? ?? ?? ??? ???? ?????. ?? ? ??? CC-BY-4.0 ????? ??? HelpSteer2 ???? ???? ????? ?????? ?? ??? ?????.

    ??

    ? ??? ????? ?? ? ?? ?? ?? ?? ??? ???? ? ?? ??? ?? ??????:

    HelpSteer2?? ??? ???? ???? ? ?? ?? ??? ?? ???????. ?? ??? ??? ??? ?? ?? ?? ??? ???, ??? ?? AI? ????? ?? ???? ????? ? ??????.

    ???? ?? ?? ??

    ??? ??? ??? HelpSteer2-Preference ????? RLHF ??? ????(?? REINFORCE ????? ??) ????? ?? LLM? ?? ?? ?? ?? ?? ??? Arena Hard?? 85?? ?? ??? ??? ? ????. ?? ???? ??? ?? ??? ???? ?? ?? ? Arena Hard ?????? ?? ??? ?????.

    ?? 2. Arena Hard ?????? 3?? ??? Llama-3.1-Nemotron-70B-Instruct.

    Llama-3.1-Nemotron-70B-Instruct ??? Llama-3.1 ????? ?? ????? ?? ? ???? ? ??? ??????? ?? ???????? ??? ? ????.

    NVIDIA NIM? ?? ??? ??

    Nemotron Reward ??? ????, ?????, ?????? ? ???? NVIDIA ?? ??? ??? ?? ??? AI ??? ??? ????? ???? ? ??? NVIDIA NIM ?? ???????? ????? ????.

    NIM? ?? ??? ??, ?? ?? API ? ?? ??? ????? ???? ??? ?? ???? ?? ???? AI ??? ?????.

    ????

    ?? ?? ?????? Llama 3.1-Nemotron-70B-Reward ??? ?????, ??? ???? ???? ???? NVIDIA ??? API ?????? ?? ???? ????? ?? ??(PoC)? ?????. Llama 3.1-Nemotron-70B-Instruct ??? ???? ???? ? ????.

    ai.nvidia.com?? ?? NVIDIA ???? ????? ????? Hugging Face?? ??? ???????.

    ?? ?? ?? ? RLHF? ??? ? ?? ??? ?? ??? ??? HelpSteer2-Preference: ?? ???? ?? ????? ?????.

    ? ???? 2024? 10? 21?? ?????????.

    ?? ???

    GTC ??: KTO? ?? ? ??, ? ????, ? ?? LLM ??
    GTC ??: ??? ?? ??: ?? ?? ??? ??? ?? ??
    GTC ??: ? ??? ??? ??? ?? ??? ?? ?? ?? ??? ??
    NGC ????: Nemotron-4-340B-Reward
    NGC ????: Mistral-Nemo-12B-Instruct
    ???: AI? ?? ?? ????? ??: CLLM? ?? ?? ??

    Discuss (0)
    0

    Tags

    人人超碰97caoporen国产