劉仕杰 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Tue, 05 Nov 2024 02:23:10 +0000
zh-CN
hourly
1
196178272 -
RecSys ’24: 使用 EMBark 進行大規模推薦系統訓練 Embedding 加速
http://www.open-lab.net/zh-cn/blog/recsys24-embark-embedding-acceleration/
Mon, 04 Nov 2024 06:42:52 +0000
http://www.open-lab.net/zh-cn/blog/?p=11801
Continued]]>
推薦系統是互聯網行業的核心系統,如何高效訓練推薦系統是各公司關注的核心問題。目前,推薦系統基本上都是基于深度學習的大規模 ID 類模型,模型包含數十億甚至數百億級別的 ID 特征,典型結構如圖 1 所示。 圖1. 典型 DLRM 模型結構圖 近年來,以 NVIDIA Merlin HugeCTR 和 TorchRec 為代表的 GPU 解決方案,通過將大規模 ID 類特征的 embedding 存放在 GPU 上,并對 embedding 進行模型并行處理,將其分片到不同 GPU 上,利用 GPU 內存帶寬優勢,大幅加速了深度推薦系統模型的訓練,相較于 CPU 方案有顯著提升。 同時,隨著訓練集群 GPU 使用數量增加(從 8 個 GPU 增加到 128 個 GPU),我們也發現,embedding 部分通信開銷占整個訓練開銷比例越來越大。
Source
]]>
11801
人人超碰97caoporen国产