Ryan McCormick – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 31 Aug 2023 04:45:03 +0000
zh-CN
hourly
1
196178272 -
如何使用 NVIDIA Triton 和 Redis 構建分布式推理緩存
http://www.open-lab.net/zh-cn/blog/how-to-build-a-distributed-inference-cache-with-nvidia-triton-and-redis/
Wed, 30 Aug 2023 04:39:48 +0000
http://www.open-lab.net/zh-cn/blog/?p=7695
Continued]]>
緩存與數組、符號或字符串一樣是計算的基礎。整個堆棧中的各種緩存層在您的 CPU 上掛起時保存來自內存的指令。它們使您能夠在離開時快速重新加載頁面,而無需重新驗證。它們還顯著降低了應用程序的工作負載,并通過不重復運行相同的查詢來提高吞吐量。 NVIDIA Triton Inference Server 對于緩存來說,是一個調整為以張量推理的形式回答問題的系統。運行推理是一項計算成本相對較高的任務,它經常調用相同的推理來重復運行。這自然有助于使用緩存模式。 NVIDIA Triton 團隊最近實施了 Triton response cache,并使用了 Triton local cache 庫。他們還建立了 cache API,以使該緩存模式在 Triton 中可擴展。然后,Redis 團隊利用 API 構建了 NVIDIA Triton 的 Redis cache。
Source
]]>
7695
人人超碰97caoporen国产