Sam Partee – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 31 Aug 2023 04:45:03 +0000 zh-CN hourly 1 196178272 如何使用 NVIDIA Triton 和 Redis 構建分布式推理緩存 http://www.open-lab.net/zh-cn/blog/how-to-build-a-distributed-inference-cache-with-nvidia-triton-and-redis/ Wed, 30 Aug 2023 04:39:48 +0000 http://www.open-lab.net/zh-cn/blog/?p=7695 Continued]]> 緩存與數組、符號或字符串一樣是計算的基礎。整個堆棧中的各種緩存層在您的 CPU 上掛起時保存來自內存的指令。它們使您能夠在離開時快速重新加載頁面,而無需重新驗證。它們還顯著降低了應用程序的工作負載,并通過不重復運行相同的查詢來提高吞吐量。 NVIDIA Triton Inference Server 對于緩存來說,是一個調整為以張量推理的形式回答問題的系統。運行推理是一項計算成本相對較高的任務,它經常調用相同的推理來重復運行。這自然有助于使用緩存模式。 NVIDIA Triton 團隊最近實施了 Triton response cache,并使用了 Triton local cache 庫。他們還建立了 cache API,以使該緩存模式在 Triton 中可擴展。然后,Redis 團隊利用 API 構建了 NVIDIA Triton 的 Redis cache。

Source

]]>
7695
離線到在線: NVIDIA Merlin 實時推薦系統的功能存儲 http://www.open-lab.net/zh-cn/blog/offline-to-online-feature-storage-for-real-time-recommendation-systems-with-nvidia-merlin/ Wed, 01 Mar 2023 02:40:12 +0000 http://www.open-lab.net/zh-cn/blog/?p=6327 Continued]]> 由于 深度學習 的進步和矢量嵌入的使用,推薦模型近年來進展迅速。這些模型日益復雜,需要強大的系統來支持它們,在生產中部署和維護這些模型可能具有挑戰性。 在論文 Monolith: Real Time Recommendation System With Collisionless Embedding Table 中,字節跳動詳細介紹了他們如何構建一個推薦系統,以支持在線培訓、滾動嵌入更新、容錯等。 這篇文章詳細介紹了離線、在線和在線大型推薦系統架構。我們專注于部署,使用構建塊框架 NVIDIA Merlin 和實時數據層 Redis 構建端到端推薦系統的示例。最后,我們提供了云部署說明和管理的 Redis 選項,用于生產就緒和簡化架構。 下載 RedisVentures/Redis-Recsys GitHub 存儲庫中的代碼,并查看相關資產以遵循每個示例。

Source

]]>
6327
人人超碰97caoporen国产