TensorFlow 2 – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 07 Apr 2022 07:20:38 +0000
zh-CN
hourly
1
196178272 -
在 TensorFlow 2 中用 100B+ 參數在 DGX A100 上訓練推薦系統
http://www.open-lab.net/zh-cn/blog/training-a-recommender-system-on-dgx-a100-with-100b-parameters-in-tensorflow-2/
Tue, 05 Apr 2022 08:36:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3550
Continued]]>
深度學習推薦系統通常使用大型嵌入表。很難將它們放入 GPU 內存中。 這篇文章向你展示了如何結合使用模型并行和數據并行訓練范例來解決這個記憶問題,從而更快地訓練大型深度學習推薦系統。我分享了我的團隊在 TensorFlow 2 中高效培訓 1130 億參數推薦系統所采取的步驟,該模型的所有嵌入的總大小為 421 GiB 。 通過在 GPU 和 CPU 之間拆分模型和嵌入,我的團隊實現了 43 倍的加速。然而,將嵌入分布到多個 GPU 上,帶來了令人難以置信的 672 倍的加速。這種多 GPU 方法實現了顯著的加速,使您能夠在幾分鐘內而不是幾天內訓練大型推薦系統。 您可以使用 NVIDIA 深度學習示例 GitHub 存儲庫 中提供的代碼自己復制這些結果。 在數據并行訓練中,每個 GPU 存儲模型的相同副本,但在不同的數據上訓練。這對于許多深度學習應用程序來說都很方便,
Source
]]>
3550
人人超碰97caoporen国产