人工智能/深度學習

2025年 3月 7日

基于 1F1B 的 MoE A2A 通信計算 Overlap

在 MoE 模型的訓練過程中，EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重，對訓練效率影響很大，

3 MIN READ

2024年 7月 24日

借助最新 NVIDIA Merlin TensorFlow 插件實現大規模 Embedding 擴展

通過封裝 NVIDIA Merlin HugeCTR，Sparse Operation Kit（以下簡稱 SOK）使得…

4 MIN READ

2024年 7月 4日

探索 FP8 訓練中 Debug 思路與技巧

目前，市場上許多公司都積極開展基于 FP8 的大模型訓練，以提高計算效率和性能。在此，

2 MIN READ

2024年 4月 19日

利用 NVIDIA Merlin HierarchicalKV 實現唯品會在搜推廣場景中的 GPU 推理實踐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin…

2 MIN READ

2024年 3月 19日

FP8：前沿精度與性能的新篇章

在深度學習和人工智能的快速發展背景下，尤其是大語言模型（Large Language Model, LLM）的蓬勃發展，

3 MIN READ

2023年 12月 4日

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

大型語言模型正以其驚人的新能力推動人工智能的發展，擴大其應用范圍。然而，由于這類模型具有龐大的參數規模，部署和推理的難度和成本極高，

2 MIN READ

2023年 11月 9日

NVIDIA Merlin 助力陌陌推薦業務實現高性能訓練優化

本案例中，NVIDIA 團隊與陌陌推薦系統團隊深度合作，共同使用 NVIDIA GPU 和 Merlin 軟件解決方案替代其原有解決方案。

2 MIN READ

2023年 11月 2日

使用 Milvus 和 NVIDIA Merlin 搭建高效推薦系統

如何搭建一個高效的推薦系統？簡單來說，現代推薦系統由訓練/推理流水線（pipeline）組成，涉及數據獲取、數據預處理、模型訓練和調整檢索、

4 MIN READ

2023年 3月 15日

適用于基于 NVIDIA 的 PC 的端到端人工智能： NVIDIA TensorRT 部署

這篇文章是關于優化端到人工智能的系列文章中的第五篇。 NVIDIA TensorRT 是一種在 NVIDIA…

2 MIN READ

2023年 2月 8日

基于 NVIDIA 的 PC 的端到端 AI ： ONNX Runtime 中的 CUDA 和 TensorRT 執行提供程序

這篇文章是 optimizing end-to-end AI 系列文章的第四篇。有關更多信息，請參閱以下帖子：

2 MIN READ

2023年 1月 3日

回顧年度： 2022 年趨勢文章

2022 年標志著新技術和不斷發展的一年，各行業產生了廣泛的進步和人工智能驅動的解決方案。其中包括提高 HPC 和 AI 的工作量、

2 MIN READ

2022年 12月 5日

Sky Hackthon 比賽指北 - 基礎篇

Sky Hackthon 比賽是由 Nvidia 中國開發者社區舉辦的，面向國內高校學生的關于算法模型應用比賽，比賽期間，

2 MIN READ

2022年 11月 1日

來 NVIDIA 第七屆 Sky Hackathon，挑戰智能語音垃圾分類任務

Sky Hackathon 由 NVIDIA 發起并主辦，項目旨在幫助在校學生、

2 MIN READ

2022年 9月 18日

GPU 教育的他山之石 – NVIDIA GPU教育論壇

NVIDIA GEC（GPU Education Center）是提供給全國在 GPU 教育領域正在做出貢獻的教師們的溝通交流平臺，

1 MIN READ

2022年 8月 31日

與 Sophia Abraham 一起探索人工智能事業

Sophia Abraham 一直認為她會成為一名醫生。她目前正在圣母大學攻讀計算機科學和計算機工程博士學位。

1 MIN READ

2022年 8月 18日

免費學 DOCA 軟件開發入門課程釋放 DPU 潛力

繼今年 1 月 NVIDIA 推出第一個自學 DOCA 課程之后，NVIDIA 深度學習培訓中心（DLI）今天又發布了第二個免費自學…

1 MIN READ

人工智能/深度學習

基于 1F1B 的 MoE A2A 通信計算 Overlap

借助最新 NVIDIA Merlin TensorFlow 插件實現大規模 Embedding 擴展

探索 FP8 訓練中 Debug 思路與技巧

利用 NVIDIA Merlin HierarchicalKV 實現唯品會在搜推廣場景中的 GPU 推理實踐

FP8：前沿精度與性能的新篇章

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

NVIDIA Merlin 助力陌陌推薦業務實現高性能訓練優化

使用 Milvus 和 NVIDIA Merlin 搭建高效推薦系統

適用于基于 NVIDIA 的 PC 的端到端人工智能： NVIDIA TensorRT 部署

基于 NVIDIA 的 PC 的端到端 AI ： ONNX Runtime 中的 CUDA 和 TensorRT 執行提供程序

回顧年度： 2022 年趨勢文章

Sky Hackthon 比賽指北 - 基礎篇

來 NVIDIA 第七屆 Sky Hackathon，挑戰智能語音垃圾分類任務

GPU 教育的他山之石 – NVIDIA GPU教育論壇

與 Sophia Abraham 一起探索人工智能事業

免費學 DOCA 軟件開發入門課程 釋放 DPU 潛力

免費學 DOCA 軟件開發入門課程釋放 DPU 潛力