John Thomson

John Thomson 是 NVIDIA 深度學習算法團隊的實習生。他目前正在滑鐵盧大學攻讀計算機工程專業的第三年。他專注于在結構化工作負載上優化 LLM 推理。

Posts by John Thomson

生成式人工智能/大語言模型

在 NVIDIA TensorRT-LLM 中引入新型 KV 緩存重用優化策略

語言模型通過預測下一個令牌 (給定所有先前的令牌,包括輸入文本令牌) 來生成文本。在 LLM 服務中,先前令牌的鍵和值元素用作歷史語境, 2 MIN READ