Posts by Nick Comly
數據中心/云端
2024年 12月 24日
借助 NVIDIA 全棧解決方案提升 AI 推理性能
AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。
2 MIN READ
數據中心/云端
2024年 11月 19日
Llama 3.2 全棧優化釋放 NVIDIA GPU 的高性能
Meta 最近發布了 Llama 3.2 系列視覺語言模型(VLM),其中包含 11B 參數和 90B 參數變體。這些模型是多模態模型,
2 MIN READ
數據中心/云端
2024年 11月 15日
借助 NVIDIA TensorRT-LLM 分塊預填充提高 AI 推理效率和簡化部署
在本 博文 中,我們詳細介紹了分塊預填充,這是 NVIDIA TensorRT-LLM 的一項功能,
1 MIN READ
AI 平臺/部署
2024年 11月 8日
NVIDIA TensorRT-LLM KV 緩存早期重用實現首個令牌速度 5 倍提升
在上一篇 博客文章 中,我們展示了通過將鍵值 (KV) 緩存卸載到 CPU 內存來重復使用該緩存如何在基于 x86 的 NVIDIA…
2 MIN READ
數據中心/云端
2024年 8月 12日
NVIDIA NVLink 和 NVIDIA NVSwitch 加速大語言模型推理性能
大型語言模型(LLM)越來越大,增加了處理推理請求所需的計算量。為了滿足服務當今LLM的實時延遲要求,并為盡可能多的用戶提供服務,
3 MIN READ
數據中心/云端
2024年 5月 14日
NVIDIA TensorRT 10.0 升級可用性、性能和 AI 模型支持
NVIDIA 今天宣布最新發布的 NVIDIA TensorRT,一個用于高性能深度學習推理的 API 生態系統。
2 MIN READ