投稿者: - NVIDIA 技術ブログ

Thor Johnsen

Thor Johnsen は 2018 年に NVIDIA のディープラーニングフレームワークチームに加わった後、さまざまな TensorFlow や PyTorch プロジェクト、ビジョンモデルおよび言語モデル、mlperf トレーニングに取り組んできました。最近では TRT-LLM に取り組んでおり、特に KV キャッシュの最適化に専念しています。NVIDIA に入社する前は、エネルギー業界で科學コンピューティングの応用に攜わっていました。

Posts by Thor Johnsen

Generative AI 2024 年 11 月 8 日

NVIDIA TensorRT-LLM の KV Cache Early Reuseで、Time to First Token を 5 倍高速化

KV キャッシュの再利用技術と、TTFT のさらなる高速化を実現するベストプラクティスについて解説します。 2 MIN READ