Posts by Anjali Shah
生成式人工智能/大語言模型
2025年 2月 14日
使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量
專注于編碼的 大語言模型(LLMs) 已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體 ,這些模型可幫助開發者完成各種任務,
3 MIN READ
生成式人工智能/大語言模型
2025年 1月 16日
在 NVIDIA TensorRT-LLM 中引入新型 KV 緩存重用優化策略
語言模型通過預測下一個令牌 (給定所有先前的令牌,包括輸入文本令牌) 來生成文本。在 LLM 服務中,先前令牌的鍵和值元素用作歷史語境,
2 MIN READ
生成式人工智能/大語言模型
2024年 12月 17日
借助 NVIDIA TensorRT-LLM 預測解碼,將 Llama 3.3 的推理吞吐量提升 3 倍
隨著近期新增的 Llama 3.3 70B (一種純文本指令調整模型),Meta 的開放 大語言模型 (LLMs) 集合將繼續增長。
4 MIN READ
生成式人工智能/大語言模型
2024年 12月 11日
NVIDIA TensorRT-LLM 現支持動態批處理加速編碼器 - 解碼器模型
NVIDIA 最近宣布, NVIDIA TensorRT-LLM 現可加速編碼器 – 解碼器模型架構 。
1 MIN READ
數據中心/云端
2024年 11月 19日
Llama 3.2 全棧優化釋放 NVIDIA GPU 的高性能
Meta 最近發布了 Llama 3.2 系列視覺語言模型(VLM),其中包含 11B 參數和 90B 參數變體。這些模型是多模態模型,
2 MIN READ
對話式人工智能
2024年 9月 25日
Llama 3.2 加速部署從邊緣到云端實現提速
擴展開源 Meta Llama 模型集合,Llama 3.2 集合包括視覺語言模型(VLM)、小語言模型(SLM)和更新版的 Llama…
2 MIN READ