Sam Partee – NVIDIA 技術博客

如何使用 NVIDIA Triton 和 Redis 構建分布式推理緩存

Wed, 30 Aug 2023 04:39:48 +0000

緩存與數組、符號或字符串一樣是計算的基礎。整個堆棧中的各種緩存層在您的 CPU 上掛起時保存來自內存的指令。它們使您能夠在離開時快速重新加載頁面，而無需重新驗證。它們還顯著降低了應用程序的工作負載，并通過不重復運行相同的查詢來提高吞吐量。 NVIDIA Triton Inference Server 對于緩存來說，是一個調整為以張量推理的形式回答問題的系統。運行推理是一項計算成本相對較高的任務，它經常調用相同的推理來重復運行。這自然有助于使用緩存模式。 NVIDIA Triton 團隊最近實施了 Triton response cache，并使用了 Triton local cache 庫。他們還建立了 cache API，以使該緩存模式在 Triton 中可擴展。然后，Redis 團隊利用 API 構建了 NVIDIA Triton 的 Redis cache。

Source

]]>

離線到在線： NVIDIA Merlin 實時推薦系統的功能存儲

Wed, 01 Mar 2023 02:40:12 +0000

由于深度學習的進步和矢量嵌入的使用，推薦模型近年來進展迅速。這些模型日益復雜，需要強大的系統來支持它們，在生產中部署和維護這些模型可能具有挑戰性。在論文 Monolith: Real Time Recommendation System With Collisionless Embedding Table 中，字節跳動詳細介紹了他們如何構建一個推薦系統，以支持在線培訓、滾動嵌入更新、容錯等。這篇文章詳細介紹了離線、在線和在線大型推薦系統架構。我們專注于部署，使用構建塊框架 NVIDIA Merlin 和實時數據層 Redis 構建端到端推薦系統的示例。最后，我們提供了云部署說明和管理的 Redis 選項，用于生產就緒和簡化架構。下載 RedisVentures/Redis-Recsys GitHub 存儲庫中的代碼，并查看相關資產以遵循每個示例。

Source

]]>