AI Inference / Inference Microservices

2025年 2月 28日
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 優化 SLM 基礎的垂直服務
NAVER 是一家韓國熱門搜索引擎公司,提供 Naver Place ,這是一項基于地理的服務,可提供有關韓國數百萬家企業和興趣點的詳細信息。
4 MIN READ

2025年 2月 14日
使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量
專注于編碼的 大語言模型(LLMs) 已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體 ,這些模型可幫助開發者完成各種任務,
3 MIN READ

2025年 2月 13日
使用 DeepSeek-R1 和推理時間縮放實現自動化 GPU 內核生成
隨著 AI 模型擴展其功能以解決更復雜的挑戰,一種稱為“ 測試時擴展 ”或“ 推理時擴展 ”的新擴展法則正在出現。
2 MIN READ

2025年 2月 5日
NVIDIA Blackwell 上的 OpenAI Triton 提升 AI 性能和可編程性
矩陣乘法和注意力機制是現代 AI 工作負載的計算支柱。雖然庫如 NVIDIA cuDNN 提供高度優化的實現,
2 MIN READ

2024年 12月 24日
借助 NVIDIA 全棧解決方案提升 AI 推理性能
AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。
2 MIN READ

2024年 12月 19日
使用 NVIDIA NeMo Curator 新分類器模型增強您的訓練數據
分類器模型專門用于將數據分類為預定義的組或類,在優化數據處理流程以微調和預訓練生成式 AI 模型方面發揮著關鍵作用。
3 MIN READ

2024年 12月 18日
NVIDIA?TensorRT-LLM?現支持?Recurrent Drafting,實現?LLM?推理優化
Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術,
2 MIN READ

2024年 12月 12日
NVIDIA BlueField DPU 與 WEKA Client 的集成提升 AI 工作負載效率
WEKA 是可擴展軟件定義數據平臺的先驅,NVIDIA 正在攜手合作,
1 MIN READ

2024年 12月 11日
NVIDIA TensorRT-LLM 現支持動態批處理加速編碼器 - 解碼器模型
NVIDIA 最近宣布, NVIDIA TensorRT-LLM 現可加速編碼器 – 解碼器模型架構 。
1 MIN READ

2024年 11月 19日
Llama 3.2 全棧優化釋放 NVIDIA GPU 的高性能
Meta 最近發布了 Llama 3.2 系列視覺語言模型(VLM),其中包含 11B 參數和 90B 參數變體。這些模型是多模態模型,
2 MIN READ

2024年 11月 15日
借助 NVIDIA TensorRT-LLM 分塊預填充提高 AI 推理效率和簡化部署
在本 博文 中,我們詳細介紹了分塊預填充,這是 NVIDIA TensorRT-LLM 的一項功能,
1 MIN READ

2024年 11月 15日
NVIDIA NIM 1.4 現已部署可用,推理速度提升 2.4 倍
隨著 生成式 AI 重塑各行各業,對可立即部署的高性能推理的需求也在不斷增長。 NVIDIA NIM 為 AI…
1 MIN READ

2024年 11月 8日
NVIDIA TensorRT-LLM KV 緩存早期重用實現首個令牌速度 5 倍提升
在上一篇 博客文章 中,我們展示了通過將鍵值 (KV) 緩存卸載到 CPU 內存來重復使用該緩存如何在基于 x86 的 NVIDIA…
2 MIN READ

2024年 11月 1日
NVSwitch 和 TensorRT-LLM MultiShot 共同加速 AllReduce 速度達 3 倍
在用戶數量可能在數百到數十萬之間波動,且輸入序列長度隨每個請求而變化的生產環境中,部署生成式 AI 工作負載會面臨獨特的挑戰。
1 MIN READ

2024年 10月 16日
利用腦機交互式神經調節和 NVIDIA Jetson 改善腦部疾病治療
Neuromodulation 是一種通過直接干預神經活動來增強或恢復大腦功能的技術。它常用于治療帕金森癥、癲癇和抑郁癥等病癥。
2 MIN READ

2024年 10月 16日
借助 Google Kubernetes Engine 和 NVIDIA NIM 實現高性能 AI 推理擴展
AI 模型的快速演進推動了對更高效、更可擴展的推理解決方案的需求。在企業組織努力利用 AI 的強大功能時,他們在部署、
3 MIN READ