阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地實踐

Thu, 13 Jun 2024 05:41:11 +0000

隨著 ChatGPT 的一夜爆火，大模型如今越來越廣泛的應用到各種業務領域中，阿里安全的業務領域對大模型技術的應用也已經 2 年有余。本文對阿里安全在大模型工程領域積累的實踐經驗做出總結和分享。在大模型實際應用實踐的過程中，阿里安全采用 NVIDIA NeMoTM 框架和 TensorRT-LLM 大語言模型推理加速庫，顯著優化了模型訓練與推理性能。其中 NeMo 在多卡環境可實現 2-3 倍的訓練加速，TensorRT-LLM 結合 SmoothQuant Int8 可實現領先的推理加速比，動態批處理策略 (Dynamic Batch) 將計算步驟減少 30%，實際 QPS 增益 2-3 倍。Prompt 優化策略在特定業務中提升吞吐高達 10 倍。整體優化成果顯著增強了模型性能與業務效率。掃描下方二維碼、點擊文章底部閱讀原文，或復制鏈接（https://www.

Source

]]>

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

Mon, 04 Dec 2023 04:32:23 +0000

大型語言模型正以其驚人的新能力推動人工智能的發展，擴大其應用范圍。然而，由于這類模型具有龐大的參數規模，部署和推理的難度和成本極高，這一挑戰一直困擾著 AI 領域。此外，當前存在大量支持模型部署和推理的框架和工具，如 ModelScope 的 Model Pipelines API，和 HuggingFace 的 Text Generation Inference 等，各自都有其獨特的特點和優勢。然而，這些工具往往未能充分發揮 GPU 的性能。為了解決這些問題，NVIDIA 推出了一種全新的解決方案——TensorRT-LLM。這是一款高度優化的開源計算框架，它將 NVIDIA TensorRT 的深度學習編譯器、FasterTransformer 的優化內核、預處理和后處理，以及多 GPU / 多節點通信等功能封裝在一個簡單的開源 Python/C++ API 中，

Source

]]>

季光 – NVIDIA 技術博客

阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地實踐

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型