Tomasz Grel – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Tue, 25 Oct 2022 04:18:04 +0000 zh-CN hourly 1 196178272 NVIDIA Merlin Distributed-Embeddings輕松快速訓練TB 級推薦模型 http://www.open-lab.net/zh-cn/blog/fast-terabyte-scale-recommender-training-made-easy-with-nvidia-merlin-distributed-embeddings/ Wed, 31 Aug 2022 03:19:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5061 Continued]]> Embedding在深度學習推薦模型中起著關鍵作用。它們被用于將輸入數據中的離散特征映射到向量,以便下游的神經網絡進行處理。Embedding 通常構成深度學習推薦模型中的大部分參數,大小可以達到 TB 級。在訓練期間,很難將它們放入單個 GPU 的內存中。因此,現代推薦系統可能需要模型并行和數據并行的分布式訓練方法組合,以最佳利用GPU計算資源來實現最好的訓練性能。 NVIDIA Merlin Distributed-Embeddings ,可以方便TensorFlow 2 用戶用短短幾行代碼輕松完成大規模的推薦模型訓練。 背景 在數據并行分布式訓練中,整個模型被復制到每個 GPU 上。在訓練過程中,一批輸入數據在多個 GPU 中分割,每張卡獨立處理其自己的數據分片,從而允許計算擴展到更大批量的數據。在反向傳播期間,計算的梯度通過reduction算子(例如,

Source

]]>
5061
在 TensorFlow 2 中用 100B+ 參數在 DGX A100 上訓練推薦系統 http://www.open-lab.net/zh-cn/blog/training-a-recommender-system-on-dgx-a100-with-100b-parameters-in-tensorflow-2/ Tue, 05 Apr 2022 08:36:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=3550 Continued]]> 深度學習推薦系統通常使用大型嵌入表。很難將它們放入 GPU 內存中。 這篇文章向你展示了如何結合使用模型并行和數據并行訓練范例來解決這個記憶問題,從而更快地訓練大型深度學習推薦系統。我分享了我的團隊在 TensorFlow 2 中高效培訓 1130 億參數推薦系統所采取的步驟,該模型的所有嵌入的總大小為 421 GiB 。 通過在 GPU 和 CPU 之間拆分模型和嵌入,我的團隊實現了 43 倍的加速。然而,將嵌入分布到多個 GPU 上,帶來了令人難以置信的 672 倍的加速。這種多 GPU 方法實現了顯著的加速,使您能夠在幾分鐘內而不是幾天內訓練大型推薦系統。 您可以使用 NVIDIA 深度學習示例 GitHub 存儲庫 中提供的代碼自己復制這些結果。 在數據并行訓練中,每個 GPU 存儲模型的相同副本,但在不同的數據上訓練。這對于許多深度學習應用程序來說都很方便,

Source

]]>
3550
人人超碰97caoporen国产