如何使用 NVIDIA Triton 和 Redis 構建分布式推理緩存

Wed, 30 Aug 2023 04:39:48 +0000

緩存與數組、符號或字符串一樣是計算的基礎。整個堆棧中的各種緩存層在您的 CPU 上掛起時保存來自內存的指令。它們使您能夠在離開時快速重新加載頁面，而無需重新驗證。它們還顯著降低了應用程序的工作負載，并通過不重復運行相同的查詢來提高吞吐量。 NVIDIA Triton Inference Server 對于緩存來說，是一個調整為以張量推理的形式回答問題的系統。運行推理是一項計算成本相對較高的任務，它經常調用相同的推理來重復運行。這自然有助于使用緩存模式。 NVIDIA Triton 團隊最近實施了 Triton response cache，并使用了 Triton local cache 庫。他們還建立了 cache API，以使該緩存模式在 Triton 中可擴展。然后，Redis 團隊利用 API 構建了 NVIDIA Triton 的 Redis cache。

Source

]]>

Ryan McCormick – NVIDIA 技術博客

如何使用 NVIDIA Triton 和 Redis 構建分布式推理緩存