Posts by 郝尚榮
加速計算
2024年 11月 20日
TensorRT-LLM 低精度推理優化:從速度和精度角度的 FP8 vs INT8 的全面解析
本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,
5 MIN READ
生成式人工智能/大語言模型
2024年 6月 13日
阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地實踐
隨著 ChatGPT 的一夜爆火,大模型如今越來越廣泛的應用到各種業務領域中,阿里安全的業務領域對大模型技術的應用也已經 2 年有余。
4 MIN READ