3 月 19 日下午 2 點，鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看

加速計算

2024年 12月 10日

如何使用 FP8 加速大模型訓練

利用 FP8 技術加速 LLM 推理和訓練越來越受到關注，本文主要和大家介紹如何使用 FP8 這項新技術加速大模型的訓練。

4 MIN READ

2024年 11月 20日

使用 EMBark 加速大規模推薦系統嵌入式訓練優化

推薦系統是互聯網行業的核心，而高效地訓練這些系統對于各大公司來說是一個關鍵問題。大多數推薦系統是深度學習推薦模型（DLRMs），

2 MIN READ

2024年 11月 20日

TensorRT-LLM 低精度推理優化：從速度和精度角度的 FP8 vs INT8 的全面解析

本文將分享 TensorRT-LLM 中低精度量化內容，并從精度和速度角度對比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，

5 MIN READ

2024年 7月 4日

探索 FP8 訓練中 Debug 思路與技巧

目前，市場上許多公司都積極開展基于 FP8 的大模型訓練，以提高計算效率和性能。在此，

2 MIN READ

2024年 4月 25日

NVIDIA GPU 架構下的 FP8 訓練與推理

本文聚焦 NVIDIA FP8 訓練與推理的實踐應用，該內容來源于 2023 云棲大會 NVIDIA 專場演講。 FP8 訓練利用 E5M2/

5 MIN READ

2024年 1月 15日

使用 NVIDIA TensorRT-LLM 支持 CodeFuse-CodeLlama-34B 上的 int4 量化和推理優化實踐

Codefuse（https://github.com/codefuse-ai）是由螞蟻集團開發的代碼語言大模型，

3 MIN READ

2023年 12月 4日

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

大型語言模型正以其驚人的新能力推動人工智能的發展，擴大其應用范圍。然而，由于這類模型具有龐大的參數規模，部署和推理的難度和成本極高，

2 MIN READ

2022年 6月 30日

Merlin HugeCTR Sparse Operation Kit 系列之二

摘要在上期文章中，我們對 HugeCTR Sparse Operation Kit (以下簡稱SOK) 的基本功能，性能，

3 MIN READ

2022年 6月 23日

HugeCTR v3.6 & v3.7 發布說明

Merlin HugeCTR（以下簡稱 HugeCTR）是 GPU 加速的推薦程序框架，

1 MIN READ

2022年 3月 29日

Merlin HugeCTR 分級參數服務器系列之二

在上一期的 HugeCTR 分級參數服務器簡介中，

2 MIN READ

2022年 3月 9日

Merlin HugeCTR v3.4.1 發布說明

Merlin HugeCTR（以下簡稱 HugeCTR）是 GPU 加速的推薦程序框架，

1 MIN READ

2021年 10月 6日

具有 RAPIDS cuML 的 GPU 加速分層 DBSCAN –讓我們回到未來

不同領域的數據科學家使用聚類方法在他們的數據集中找到自然的“相似”觀察組。流行的聚類方法可以是：基于層次密度的應用程序空間聚類 w /

3 MIN READ

2021年 10月 6日

邊緣人工智能的未來是本地云

推理因其靈活性而成為邊緣計算的殺手級應用。今天，邊緣推理（也稱為邊緣 AI）解決了各個行業的問題：防止盜竊、發現疾病和減少農田中除草劑的使用。

1 MIN READ

2021年 10月 5日

NVIDIA CloudXR 現已集成到 VMware Workspace ONE XR 集線器中

NVIDIA 和 VMware 通過發布 Workspace ONE XR Hub ，幫助企業將 XR 流媒體傳輸到云端，

1 MIN READ

2021年 10月 5日

VxRail 使用 vSAN RDMA 提高應用程序性能

混合云是指內部部署基礎架構（如 Dell EMC VxRail hyperconverged infrastructure （ HCI…

1 MIN READ

加速計算

如何使用 FP8 加速大模型訓練

使用 EMBark 加速大規模推薦系統嵌入式訓練優化

TensorRT-LLM 低精度推理優化：從速度和精度角度的 FP8 vs INT8 的全面解析

探索 FP8 訓練中 Debug 思路與技巧

NVIDIA GPU 架構下的 FP8 訓練與推理

使用 NVIDIA TensorRT-LLM 支持 CodeFuse-CodeLlama-34B 上的 int4 量化和推理優化實踐

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

推薦系統峰會 2022

Merlin HugeCTR Sparse Operation Kit 系列之二

HugeCTR v3.6 & v3.7 發布說明

Merlin HugeCTR 分級參數服務器系列之二

Merlin HugeCTR v3.4.1 發布說明

具有 RAPIDS cuML 的 GPU 加速分層 DBSCAN –讓我們回到未來

邊緣人工智能的未來是本地云

NVIDIA CloudXR 現已集成到 VMware Workspace ONE XR 集線器中

VxRail 使用 vSAN RDMA 提高應用程序性能