劉仕杰 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Tue, 05 Nov 2024 02:23:10 +0000 zh-CN hourly 1 196178272 RecSys ’24: 使用 EMBark 進行大規模推薦系統訓練 Embedding 加速 http://www.open-lab.net/zh-cn/blog/recsys24-embark-embedding-acceleration/ Mon, 04 Nov 2024 06:42:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=11801 Continued]]> 推薦系統是互聯網行業的核心系統,如何高效訓練推薦系統是各公司關注的核心問題。目前,推薦系統基本上都是基于深度學習的大規模 ID 類模型,模型包含數十億甚至數百億級別的 ID 特征,典型結構如圖 1 所示。 圖1. 典型 DLRM 模型結構圖 近年來,以 NVIDIA Merlin HugeCTR 和 TorchRec 為代表的 GPU 解決方案,通過將大規模 ID 類特征的 embedding 存放在 GPU 上,并對 embedding 進行模型并行處理,將其分片到不同 GPU 上,利用 GPU 內存帶寬優勢,大幅加速了深度推薦系統模型的訓練,相較于 CPU 方案有顯著提升。 同時,隨著訓練集群 GPU 使用數量增加(從 8 個 GPU 增加到 128 個 GPU),我們也發現,embedding 部分通信開銷占整個訓練開銷比例越來越大。

Source

]]>
11801
人人超碰97caoporen国产