Yingcan Wei – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Wed, 07 Sep 2022 04:22:21 +0000
zh-CN
hourly
1
196178272 -
使用 Merlin 分層參數服務器擴展推薦系統推理
http://www.open-lab.net/zh-cn/blog/scaling-recommendation-system-inference-with-merlin-hierarchical-parameter-server/
Wed, 31 Aug 2022 03:08:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5056
Continued]]>
如今,推薦系統被廣泛用于個性化用戶體驗,并在電子商務、社交媒體和新聞源等各種環境中提高客戶參與度。因此,以低延遲和高精度服務用戶請求對于維持用戶參與至關重要。 這包括在使用最新更新無縫刷新模型的同時執行高速查找和計算,這對于模型大小超過 GPU 內存的大規模推薦者來說尤其具有挑戰性。 NVIDIA Merlin HugeCTR ,一個開源框架,旨在優化 NVIDIA GPU 上的大規模推薦,最近發布 分層參數服務器( HPS )體系結構 以專門解決工業級推理系統的需求。實驗表明,該方法能夠在流行的基準數據集上以低延遲進行可拓展部署。 大型嵌入表 :典型深度推薦模型的輸入可以是數字(例如用戶年齡或商品價格)或分類特征(例如用戶 ID 或商品 ID )。與數字特征不同,分類特征需要轉換為數字向量,以輸入多層感知器( MLP )層進行密集計算。
Source
]]>
5056
-
Merlin HugeCTR 分級參數服務器系列之二
http://www.open-lab.net/zh-cn/blog/merlin-hugectr-hierarchical-parameter-server-part2/
Tue, 29 Mar 2022 03:22:16 +0000
http://www.open-lab.net/zh-cn/blog/?p=3479
Continued]]>
在上一期的 HugeCTR 分級參數服務器簡介中,我們介紹了傳統參數服務器的結構以及 HugeCTR 分級推理參數服務器是如何在其基礎上進行設計和改進的,我們還簡單介紹了我們的三級存儲結構以及相關配置使用。在這一期中,我們將詳細介紹 HPS 數據后端,其中包括 Volatile 數據存儲層,Persistent 數據存儲層以及流式在線模型更新的設計。 HPS 數據后端作為 GPU embedding 緩存架構的基石,同時也是 GPU embedding 緩存在 CPU 內存以及本地磁盤的進一步物理擴展。HPS 數據后端通過綁定不同物理層級的存儲從而提供了大型模型 embedding table 的緩存,查詢,更新以及容錯等服務,目的即為了保證在推理服務中 GPU embedding 緩存的高命中率,從而提高推理服務的吞吐大幅度降低端到端的延遲。
Source
]]>
3479
-
Merlin HugeCTR 分級參數服務器簡介
http://www.open-lab.net/zh-cn/blog/merlin-hugectr-hierarchical-parameter-server-intro/
Thu, 27 Jan 2022 08:41:37 +0000
http://www.open-lab.net/zh-cn/blog/?p=2909
Continued]]>
參數服務器是推薦系統的重要組成部分,但是目前的訓練端參數服務器由于高延遲和同步問題無法有效解決推理部署中模型過大的瓶頸。Merlin HugeCTR(以下簡稱 HugeCTR)團隊針對傳統參數服務器的問題重新設計了一種分級推理端參數服務器,將 GPU 內存作為一級緩存,Redis 集群作為二級緩存,RocksDB 作為持久化層,極大提高了推理效率。HugeCTR 團隊將分多期為大家介紹此分級參數服務器的具體設計和細節,本期為系列的第一期。 傳統參數服務器維護和同步模型參數僅用于訓練,worker 節點執行前向和后向計算。具體來說,在訓練中:worker 節點從 server 節點中拉取其相應的參數,進行前向計算,通過反向傳播計算梯度,最后將這些梯度推送到服務器。在推理中,它只執行前兩個步驟。如果部署在高性能設備集群中,worker 節點的計算速度非常快,
Source
]]>
2909
人人超碰97caoporen国产