Triton 推理服務器

2025年 3月 18日
隆重推出 NVIDIA Dynamo:用于擴展推理AI模型的低延遲分布式推理框架
NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、
4 MIN READ

2025年 2月 28日
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 優化 SLM 基礎的垂直服務
NAVER 是一家韓國熱門搜索引擎公司,提供 Naver Place ,這是一項基于地理的服務,可提供有關韓國數百萬家企業和興趣點的詳細信息。
4 MIN READ

2024年 12月 24日
借助 NVIDIA 全棧解決方案提升 AI 推理性能
AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。
2 MIN READ

2024年 12月 18日
AEC 檢索增強生成技術指南
大語言模型 (LLMs) 正在迅速改變業務格局,為自然語言處理 (NLP)、內容生成和數據分析提供新功能。
3 MIN READ

2024年 12月 5日
聚焦:Perplexity AI 利用 NVIDIA 推理棧每月服務 4 億個搜索請求
對 AI 賦能服務的需求持續快速增長,這給 IT 和基礎設施團隊帶來了越來越大的壓力。這些團隊的任務是配置必要的硬件和軟件來滿足這一需求,
2 MIN READ

2024年 10月 29日
AI 驅動的設備追蹤嚎叫以拯救狼群
一種可部署在廣大偏遠地區的手機大小的新型設備正在使用人工智能識別和地理定位野生動物,以幫助保護主義者追蹤瀕危物種,包括黃石國家公園周圍的狼群。
1 MIN READ

2024年 10月 28日
利用圖形神經網絡加速金融服務業欺詐檢測效率
金融服務欺詐是一個巨大的問題。根據 NASDAQ 的數據,在 2023 年,銀行在支付、支票和信用卡欺詐方面預計會面臨 442 億美元的損失。
3 MIN READ

2024年 10月 22日
利用 NVIDIA Triton 和 NVIDIA TensorRT-LLM 及 Kubernetes 實現 LLM 擴展
大語言模型 (LLMs) 已廣泛應用于聊天機器人、內容生成、摘要、分類、翻譯等領域。State-of-the-art LLMs 和基礎模型如…
5 MIN READ

2024年 10月 1日
借助檢索增強型生成技術推動 AI 賦能游戲開發的演進
游戲開發是一個復雜且資源密集型的過程,尤其是在使用 像 Unreal Engine 這樣的高級工具 時。開發者會發現自己需要瀏覽大量信息,
1 MIN READ

2024年 8月 28日
NVIDIA Blackwell 平臺在 MLPerf Inference v4.1 中創下新的 LLM 推理記錄
大型語言模型 (LLM) 推理是一項全棧挑戰。實現高吞吐量、低延遲推理需要強大的 GPU、高帶寬 GPU 之間的互連、
4 MIN READ

2024年 8月 28日
NVIDIA Triton 推理服務器在 MLPerf Inference 4.1 基準測試中實現出色性能
六年前,我們踏上了開發 AI 推理服務解決方案的旅程,該解決方案專為高吞吐量和時間敏感型生產用例而設計。當時,ML 開發者正在部署定制的、
2 MIN READ

2024年 8月 21日
LLM 推理規模和性能優化的實踐策略
隨著聊天機器人和內容創建等許多應用越來越多地使用大型語言模型(LLM),了解擴展和優化推理系統的過程非常重要,
1 MIN READ

2024年 8月 1日
使用 NVIDIA GenAI-Perf 和 OpenAI 兼容 API 測量生成式 AI 模型性能
NVIDIA 提供 Perf Analyzer 和 Model Analyzer 等工具,幫助機器學習工程師測量和平衡延遲與吞吐量之間的權衡,
2 MIN READ

2024年 7月 8日
使用 NVIDIA NIM 實現多語種大語言模型部署
對于在當今全球化商業環境中運營的企業而言,多語種大型語言模型(LLM)的重要性與日俱增。隨著企業跨越國界和文化擴展業務,
4 MIN READ

2024年 7月 2日
借助 NVIDIA GPU 和無邊緣系統提高大型語言模型的安全性
Edgeless Systems 推出了 Continuum AI,這是首款生成式 AI 框架,始終通過機密計算對提示進行加密,
2 MIN READ

2024年 6月 14日
通過五門新的 NVIDIA 技術課程提升您的技能
隨著人工智能以前所未有的速度引入技術創新,保持領先意味著保持你的技能與時俱進。NVIDIA 開發者計劃為您提供所需的工具、培訓和資源,
1 MIN READ