• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • Generative AI

    NVIDIA TensorRT Model Optimizer? ??? AI ?? ?? ???

    Reading Time: 6 minutes

    ??? ???? ??? AI ???? ???? ?? ??? ?? ??? ??? ??? ?????. ?? ??? ???? ??????? ???? ?? ??? ????? ??? ???? ???? ?? ???? ??? ???? ? ???? ?? ??? ????. NVIDIA ???? ??? ??? ????? ?, ???, ?????, ???? ? ?? ?? ??? ?? ??? ?? ???? ?? ??? ?????. 

    NVIDIA? ??? ?? ???? ? ???? ???? ?? ??? ??? ?? ?????? NVIDIA TensorRT Model Optimizer? ?? ?? ???? ???? ????. ??? ???? ?? ???? ??? ?? ??? ? ???? ???? ?? NVIDIA TensorRT-LLM ?? ????? ?? ?????? ? ?? ??? ?? ??? ? ????? ???? ? ????.

    NVIDIA TensorRT ?????? ??? ??? NVIDIA TensorRT Model Optimizer(Model Optimizer??? ?)? NVIDIA Hopper, NVIDIA Ampere? NVIDIA Ada Lovelace?? ?? ?????? ??? ? ????. 

    Model Optimizer? PyTorch ? ONNX ??? ?? ?????? ???? ?????? ?????. ??? ???? ?????? TensorRT-LLM ?? TensorRT? ???? ??? ? ??? ?? ?? ?? ?? ?????? ? ??? ?????. Model Optimizer Python API? ???? ???? ??? ?? ??? ??? ???? TensorRT? ?? ??? ? ???? ???? ???? ??? ???? ? ????.

    NVIDIA TensorRT Model Optimizer? 2024? 5? 8?? ?????? ?? ???? ? ?????? NVIDIA PyPI ??? ??? ??? ? ????. GitHub?? NVIDIA/TensorRT-Model-Optimizer ? ???? ?? ????? ???? ??? ??? ???? ?????.

    ??? ??

    ???? ? ???(PTQ)? ??? ?? ??? ??? ??? ????? ?? ?? ?? ?? ?? ?? ? ??? ????. ? ? ?? ??? ??? ??? ?? ??? ?? ?? ??? ????? Model Optimizer? INT8 SmoothQuant ? INT4 AWQ(??? ?? ??? ???)? ??? ?? ?? ????? ?????. TensorRT-LLM?? FP8 ?? ??? ? ?? ???(?: INT8 ?? INT4)? ???? ??, Model Optimizer? PTQ? ?? ???? ???? ?? ????. 

    ?? 1? ?? Model Optimizer? PTQ? ?? ??? TensorRT-LLM ???? ?? ???? ????? LLM? ?? ?? ??? ???? ??? ? ??? ??????. INT4 AWQ? ???? Falcon 180B? ?? NVIDIA H200 GPU? ?????. ?? 1? ???? Llama 3 ???? Model Optimizer PTQ? ???? ??? ? ?? ?? ?? ??? ?????.

    ?? 1. NVIDIA H100?? ??? ?? ??(BS)? Llama 3 7B ? 70B ??? ?? FP16 ??? ??? NVIDIA TensorRT Model Optimizer FP8 ? INT4 AWQ? ?? ????

    ?? ??? ????? ?? ?? ?? ???????. ??? GPU ?? ??????.

    ???? ??? ?? ??? NVIDIA A100 Tensor ?? GPU??? ???? ???? ? ?? 1?? ?? ? ??? ?? ???? ??? ??? ?? ? ????. Model Optimizer? ???? 8??(INT8 ? FP8) ???? ? ???? ??? ?? ??? ??? ?? TensorRT? ?? ?? ????? ? Stable Diffusion XL NIM ? ???? ???????. 

    MLPerf Inference v4.0?? Model Optimizer? TensorRT? ?? ???? Stable Diffusion XL ??? ?? ??? ?? ?? ?? ???? ?? ??????. ? 8?? ??? ??? ??? ?? ??? AI ???? ?? ??? ????? ? ?? ??? ??? ??? ??? ? ?? ?????. 

    FP8 ? INT8 ??? ?? ?? ? ?? ??? ??? GitHub?? NVIDIA/TensorRT-Model-Optimizer? NVIDIA/TensorRT? ?????. ?? ?????? ??? ?? ??? ???? ?? ??? ?? ????? ??? ? ? ?? ????. FP8? ??, RTX 6000 Ada??? 1.45?, FP8 MHA? ?? L40S??? 1.35?? ?? ??? ??????. ? 1? INT8 ? FP8 ???? ???? ????? ?????.

    ??? ??INT8 ?? ??(ms)FP8 ?? ??(ms)?? ??(INT8 vs FP16)?? ??(FP8 vs FP16)
    RTX 6000 Ada2,4792,4411.43?1.45?
    RTX 40902,0582,1611.20?1.14?
    L40S2,3392,1681.25?1.35?
    H100 80GB HBM31,2091,2161.08?1.07?
    ? 1. ??? ?? Model Optimizer ? TensorRT? 8?? PTQ? ???? ??? NVIDIA ????? ?? SDXL? ?? ?? ??

    ??: Stable Diffusion XL 1.0 ?? ??. ??? ??? = 1024×1024, 30??. TensorRT v9.3. ?? ??=1

    ?? 2. NVIDIA INT8 ? FP8 ???? FP16 ???? ?? ??? ??? ??? ???? ??? ?? ??? 35~45%?? ? ????.

    ??? ???? ?? ????? ?? ??

    ??? ??? NVIDIA Blackwell ???? 4?? ?? ??? AI ?? ???? ???? ??? ??? ?? ????. Model Optimizer? ?? ??? ????? 4?? ??? ???? ? ???? ??? ???. 4?? ???? ??? ? ???? ? ???? ??? ??? ??? ??? ??? ?????. 

    ? ??? ???? ?? Model Optimizer? ???? ???? ????? ???? 4??? ?? ??? ??? ??? ? ??? ??? ?? ????(QAT)? ?????. QAT? ???? ?? ???? ??? ???? ?????? ??? ??? ?? ?? ????? ?????? ?? ????? ???? ? ????? ??? ? ??? ?????.

    Model Optimizer QAT ?????? NVIDIA NeMo, Megatron-LM ? Hugging Face Trainer API? ??? ??? ???? ?????? ????? ???????. ?? ?? ???? ??? ??????? NVIDIA ???? ??? ??? ? ????. NVIDIA Blackwell ???? ???? ?? QAT? ????? Hugging Face Trainer API? ???? INT4 QAT ??? ????

    NVIDIA? ??? ??? QAT? ?? ???? ?? ?? SFT(supervised fine-tuning) ????? ???? ???? QAT? ?? ????? PTQ?? ? ?? ??? ??? ? ?? ??? ??????. ?, QAT? ?? ???? ???? ??? ? ???, ??? ??? ??? ??? AI ??????? ??? ??? ???? ???? ?? 4??? ???????? ???? ??? ? ??? ?????.

    ?? 3. PTQ? QAT ? Llama 2 7B ??? ?? ??? ????? QAT? ?? ????? ?? ???? ? ? ??? ? ?? ??? ?????.

    ???? ?? ??????? ?? ?????. ? ??????? INT4? ???? QAT? ?????. 4?? ??? NVIDIA Blackwell ???? ?? ??? ?? ?????.

    ???? ?? ?? ??

    ? ?? ??? ????? ??? ?? ?? ??????? ????. ?? ?? ? ?? ?? ??? ??? ?????. ???? ?? ????? 0?? ????? ???? ??? ??? ?? ?????. ? ?? ???? ?? ???? ??? ? ????. 

    Model Optimizer? ???? ? ???? Llama 2 70B? ?? FP8 ??? ?? ?? ?? 32?? 1.62??? ??? ? ?????. ???? NVIDIA Ampere ????? ??? ?? NVIDIA 2:4 ???? ??? NVIDIA H100 GPU 1?? ???????. ??? ??? ????? NVIDIA Ampere ???? ? NVIDIA TensorRT? ???? ???? ?? ?? ???? ?????.

    MLPerf Inference v4.0?? TensorRT-LLM? ???? ? ??? Model Optimizer? ???? Llama 2 70B? 37% ?????. ?? ?? ??? KV ??? ?? H100 GPU? GPU ???? ?? ? ??? Tensor ?? ?? ??? 2?? 1? ?????. MLPerf? ? ?? ?? ???? Model Optimizer? ???? ??? ??? ???? MLPerf ?? ???? ??? Rouge ??? 99.9% ??? ??? ?????.

    ???? ???? ?? ??
    (?? ??? ??? FP8 ?? ??? ??)

    ???? Llama 2 70B
    321.62?
    641.52?
    1281.35?
    8961.30?
    ? 2. ??? NVIDIA H100 80GB GPU?? ??? ?? ??? ??? ??? ??? ??? ???? Llama 2 70B ??? ?? ?? ?? ????

    FP8: ???? ?? ??? ?? TP=1, PP=1. ??? ??? ??? ??? ? ?? ??? TP=2? ??? ?

    MLPerf ????? ??? ??? ?? ??? ??? ???? ?? ??? ???? ?? ???? ?? ??? ???? ?? ??????. Model Optimizer? FSDP? ??? ?? ?? ?? ?? ??? ???? ??? ?? ?? ??? ?? API? ?????. ?? 4? ?? ??? ?? SparseGPT? ???? ?? ??? ???? ? ??? ?????.

    ?? 4. ??? ?????? Llama 2 70B? ?? ??? ????? ??? ? ?? ??? ??? FP8? ?? ??? ?????? ??? 30% ?? ? ?? ? ??? ? ? ????.

    ?? ??? ?? ??? API

    ???? ??? ??? ??? ? ???? ?? ??? ??? ??? ??? ? ??? ??? ?? ??? ??????. ??? ???? ???? ?? Model Optimizer? ???? ?? ??? ??? ?? ? ??? ?? ??? API? ?????. ?? 5? ?? ???? ???? ???? Model Optimizer ?? ?? API? ???? ??? ?????.

    ?? 5. Model Optimizer API? ?? ??? ? ?? ??? ? ??? ??

    ?? Model Optimizer? ???? ??? ??? ?? ?? ??? ???? ?? ?? ??? ???? ?? ?? ??? ??? ???? ? ? API? ?? ?? ?? ??? ??? ?? ?????.

    ????

    ?? NVIDIA TensorRT Model Optimizer? NVIDIA PyPI? nvidia-modelopt? ??? ? ????. ?? ???? ?? ?? ???? ? ???? ?????? GitHub? NVIDIA/TensorRT-Model-Optimizer? ?????. ??? ??? TensorRT Model Optimizer ???? ??????.

    ?? ?? ??

    TensorRT Model Optimizer ??? ??? Asma Kuriparambil Thekkumpate, Kai Xu, Lucas Liebenwein, Zhiyu Cheng, Riyad Islam, Ajinkya Rasane, Jingyu Xin, Wei-Ming Chen, Shengliang Xu, Meng Xin, Ye Yu, Chen-han Yu, Keval Morabia, Asha Anoosheh ? James Shen? ??? ?????? ??? ??? ??? ??? ??? ????. (??? ??? ??? ???? ????) 

    ?? ???

    Discuss (0)
    +1

    Tags

    人人超碰97caoporen国产