AI Inference / Inference Microservices

2025年 4月 23日
NVIDIA Secure AI 正式發布
隨著許多企業開始對其數據進行 AI 訓練或推理,需要保護數據和代碼,尤其是大語言模型 (LLMs) 。由于數據敏感性,
1 MIN READ

2025年 4月 21日
使用 NVIDIA TensorRT 優化基于 Transformer 的擴散模型以生成視頻
先進的圖像擴散模型需要數十秒才能處理單張圖像。這使得視頻擴散更具挑戰性,需要大量計算資源和高昂成本。
4 MIN READ

2025年 4月 5日
NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型
最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。
2 MIN READ

2025年 4月 2日
LLM 基準測試:基本概念
在過去幾年中,作為廣泛的 AI 革命的一部分, 生成式 AI 和 大語言模型 (LLMs) 越來越受歡迎。
4 MIN READ

2025年 4月 2日
NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍
在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下, 大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時,
3 MIN READ

2025年 3月 25日
借助 NVIDIA Mission Control 實現 AI 工廠自動化
DeepSeek-R1 等先進的 AI 模型證明,企業現在可以構建專用于自己的數據和專業知識的尖端 AI 模型。
2 MIN READ

2025年 3月 20日
借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能
微軟與 NVIDIA 合作,宣布在其 Azure AI Foundry 平臺上實現 Meta Llama 系列模型的變革性性能提升。
1 MIN READ

2025年 3月 19日
AI 推理時代的 NVIDIA Blackwell Ultra
多年來,AI 的進步一直通過預訓練擴展遵循清晰的軌跡:更大的模型、更多的數據和更豐富的計算資源帶來了突破性的功能。在過去 5 年中,
2 MIN READ

2025年 3月 18日
隆重推出 NVIDIA Dynamo:用于擴展推理AI模型的低延遲分布式推理框架
NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、
4 MIN READ

2025年 3月 18日
NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能
NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能 。 搭載 8 個 NVIDIA…
5 MIN READ

2025年 3月 18日
借助 NVIDIA DGX 云無服務器推理在云環境中無縫擴展人工智能
NVIDIA DGX Cloud Serverless Inference 是一種自動擴展 AI 推理解決方案,可實現快速可靠的應用部署。
3 MIN READ

2025年 2月 28日
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 優化 SLM 基礎的垂直服務
NAVER 是一家韓國熱門搜索引擎公司,提供 Naver Place ,這是一項基于地理的服務,可提供有關韓國數百萬家企業和興趣點的詳細信息。
4 MIN READ

2025年 2月 14日
使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量
專注于編碼的 大語言模型(LLMs) 已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體 ,這些模型可幫助開發者完成各種任務,
3 MIN READ

2025年 2月 13日
使用 DeepSeek-R1 和推理時間縮放實現自動化 GPU 內核生成
隨著 AI 模型擴展其功能以解決更復雜的挑戰,一種稱為“ 測試時擴展 ”或“ 推理時擴展 ”的新擴展法則正在出現。
2 MIN READ

2025年 2月 5日
NVIDIA Blackwell 上的 OpenAI Triton 提升 AI 性能和可編程性
矩陣乘法和注意力機制是現代 AI 工作負載的計算支柱。雖然庫如 NVIDIA cuDNN 提供高度優化的實現,
2 MIN READ

2024年 12月 24日
借助 NVIDIA 全棧解決方案提升 AI 推理性能
AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求,他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。
2 MIN READ