Thor Johnsen

Thor Johnsen は 2018 年に NVIDIA のディープラーニング フレームワーク チームに加わった後、さまざまな TensorFlow や PyTorch プロジェクト、ビジョン モデルおよび言語モデル、mlperf トレーニングに取り組んできました。最近では TRT-LLM に取り組んでおり、特に KV キャッシュの最適化に専念しています。NVIDIA に入社する前は、エネルギー業界で科學コンピューティングの応用に攜わっていました。

Posts by Thor Johnsen

Generative AI

NVIDIA TensorRT-LLM の KV Cache Early Reuseで、Time to First Token を 5 倍高速化

KV キャッシュの再利用技術と、TTFT のさらなる高速化を実現するベストプラクティスについて解説します。 2 MIN READ