加速計算

2024年 12月 10日
如何使用 FP8 加速大模型訓練
利用 FP8 技術加速 LLM 推理和訓練越來越受到關注,本文主要和大家介紹如何使用 FP8 這項新技術加速大模型的訓練。
4 MIN READ

2024年 11月 20日
使用 EMBark 加速大規模推薦系統嵌入式訓練優化
推薦系統是互聯網行業的核心,而高效地訓練這些系統對于各大公司來說是一個關鍵問題。大多數推薦系統是深度學習推薦模型(DLRMs),
2 MIN READ

2024年 11月 20日
TensorRT-LLM 低精度推理優化:從速度和精度角度的 FP8 vs INT8 的全面解析
本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,
5 MIN READ

2024年 7月 4日
探索 FP8 訓練中 Debug 思路與技巧
目前,市場上許多公司都積極開展基于 FP8 的大模型訓練,以提高計算效率和性能。 在此,
2 MIN READ

2024年 4月 25日
NVIDIA GPU 架構下的 FP8 訓練與推理
本文聚焦 NVIDIA FP8 訓練與推理的實踐應用,該內容來源于 2023 云棲大會 NVIDIA 專場演講。 FP8 訓練利用 E5M2/
5 MIN READ

2024年 1月 15日
使用 NVIDIA TensorRT-LLM 支持 CodeFuse-CodeLlama-34B 上的 int4 量化和推理優化實踐
Codefuse(https://github.com/codefuse-ai)是由螞蟻集團開發的代碼語言大模型,
3 MIN READ

2023年 12月 4日
如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型
大型語言模型正以其驚人的新能力推動人工智能的發展,擴大其應用范圍。然而,由于這類模型具有龐大的參數規模,部署和推理的難度和成本極高,
2 MIN READ

2022年 6月 30日
推薦系統峰會 2022
歡迎于 7 月 29 日加入由 NVIDIA 所主辦的推薦系統峰會,與 NVIDIA、阿里巴巴、騰訊、美團等公司的專家在線交流,
1 MIN READ

2022年 6月 23日
Merlin HugeCTR Sparse Operation Kit 系列之二
摘要 在上期文章中,我們對 HugeCTR Sparse Operation Kit (以下簡稱SOK) 的基本功能,性能,
3 MIN READ

2022年 6月 23日
HugeCTR v3.6 & v3.7 發布說明
Merlin HugeCTR(以下簡稱 HugeCTR)是 GPU 加速的推薦程序框架,
1 MIN READ

2022年 3月 29日
Merlin HugeCTR 分級參數服務器系列之二
在上一期的 HugeCTR 分級參數服務器簡介中,
2 MIN READ

2022年 3月 9日
Merlin HugeCTR v3.4.1 發布說明
Merlin HugeCTR(以下簡稱 HugeCTR)是 GPU 加速的推薦程序框架,
1 MIN READ

2021年 10月 6日
具有 RAPIDS cuML 的 GPU 加速分層 DBSCAN –讓我們回到未來
不同領域的數據科學家使用聚類方法在他們的數據集中找到自然的“相似”觀察組。流行的聚類方法可以是: 基于層次密度的應用程序空間聚類 w /
3 MIN READ

2021年 10月 6日
邊緣人工智能的未來是本地云
推理因其靈活性而成為邊緣計算的殺手級應用。今天,邊緣推理(也稱為邊緣 AI)解決了各個行業的問題:防止盜竊、發現疾病和減少農田中除草劑的使用。
1 MIN READ

2021年 10月 5日
NVIDIA CloudXR 現已集成到 VMware Workspace ONE XR 集線器中
NVIDIA 和 VMware 通過發布 Workspace ONE XR Hub ,幫助企業將 XR 流媒體傳輸到云端,
1 MIN READ

2021年 10月 5日
VxRail 使用 vSAN RDMA 提高應用程序性能
混合云是指內部部署基礎架構(如 Dell EMC VxRail hyperconverged infrastructure ( HCI…
1 MIN READ