人工智能/深度學習

2025年 3月 7日
基于 1F1B 的 MoE A2A 通信計算 Overlap
在 MoE 模型的訓練過程中,EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重,對訓練效率影響很大,
3 MIN READ

2024年 7月 24日
借助最新 NVIDIA Merlin TensorFlow 插件實現大規模 Embedding 擴展
通過封裝 NVIDIA Merlin HugeCTR,Sparse Operation Kit(以下簡稱 SOK)使得…
4 MIN READ

2024年 7月 4日
探索 FP8 訓練中 Debug 思路與技巧
目前,市場上許多公司都積極開展基于 FP8 的大模型訓練,以提高計算效率和性能。 在此,
2 MIN READ

2024年 4月 19日
利用 NVIDIA Merlin HierarchicalKV 實現唯品會在搜推廣場景中的 GPU 推理實踐
本實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結合 NVIDIA TensorRT 和 NVIDIA Merlin…
2 MIN READ

2024年 3月 19日
FP8:前沿精度與性能的新篇章
在深度學習和人工智能的快速發展背景下,尤其是大語言模型(Large Language Model, LLM)的蓬勃發展,
3 MIN READ

2023年 12月 4日
如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型
大型語言模型正以其驚人的新能力推動人工智能的發展,擴大其應用范圍。然而,由于這類模型具有龐大的參數規模,部署和推理的難度和成本極高,
2 MIN READ

2023年 11月 9日
NVIDIA Merlin 助力陌陌推薦業務實現高性能訓練優化
本案例中,NVIDIA 團隊與陌陌推薦系統團隊深度合作,共同使用 NVIDIA GPU 和 Merlin 軟件解決方案替代其原有解決方案。
2 MIN READ

2023年 11月 2日
使用 Milvus 和 NVIDIA Merlin 搭建高效推薦系統
如何搭建一個高效的推薦系統? 簡單來說,現代推薦系統由訓練/推理流水線(pipeline)組成,涉及數據獲取、數據預處理、模型訓練和調整檢索、
4 MIN READ

2023年 3月 15日
適用于基于 NVIDIA 的 PC 的端到端人工智能: NVIDIA TensorRT 部署
這篇文章是關于 優化端到人工智能 的系列文章中的第五篇。 NVIDIA TensorRT 是一種在 NVIDIA…
2 MIN READ

2023年 2月 8日
基于 NVIDIA 的 PC 的端到端 AI : ONNX Runtime 中的 CUDA 和 TensorRT 執行提供程序
這篇文章是 optimizing end-to-end AI 系列文章的第四篇。 有關更多信息,請參閱以下帖子:
2 MIN READ

2023年 1月 3日
回顧年度: 2022 年趨勢文章
2022 年標志著新技術和不斷發展的一年,各行業產生了廣泛的進步和人工智能驅動的解決方案。其中包括提高 HPC 和 AI 的工作量、
2 MIN READ

2022年 12月 5日
Sky Hackthon 比賽指北 - 基礎篇
Sky Hackthon 比賽是由 Nvidia 中國開發者社區舉辦的,面向國內高校學生的關于算法模型應用比賽,比賽期間,
2 MIN READ

2022年 11月 1日
來 NVIDIA 第七屆 Sky Hackathon,挑戰智能語音垃圾分類任務
Sky Hackathon 由 NVIDIA 發起并主辦,項目旨在幫助在校學生、
2 MIN READ

2022年 9月 18日
GPU 教育的他山之石 – NVIDIA GPU教育論壇
NVIDIA GEC(GPU Education Center)是提供給全國 在 GPU 教育領域正在做出貢獻的教師們的溝通交流平臺,
1 MIN READ

2022年 8月 31日
與 Sophia Abraham 一起探索人工智能事業
Sophia Abraham 一直認為她會成為一名醫生。她目前正在圣母大學攻讀計算機科學和計算機工程博士學位。
1 MIN READ

2022年 8月 18日
免費學 DOCA 軟件開發入門課程 釋放 DPU 潛力
繼今年 1 月 NVIDIA 推出第一個自學 DOCA 課程之后,NVIDIA 深度學習培訓中心(DLI)今天又發布了第二個免費自學…
1 MIN READ