AI Inference / Inference Microservices

2025年 4月 23日

NVIDIA Secure AI 正式發布

隨著許多企業開始對其數據進行 AI 訓練或推理，需要保護數據和代碼，尤其是大語言模型 (LLMs) 。由于數據敏感性，

1 MIN READ

2025年 4月 21日

使用 NVIDIA TensorRT 優化基于 Transformer 的擴散模型以生成視頻

先進的圖像擴散模型需要數十秒才能處理單張圖像。這使得視頻擴散更具挑戰性，需要大量計算資源和高昂成本。

4 MIN READ

2025年 4月 5日

NVIDIA 加速推理 Meta Llama 4 Scout 與 Maverick 模型

最新一代熱門 Llama AI 模型現已支持 Llama 4 Scout 和 Llama 4 Maverick。

2 MIN READ

2025年 4月 2日

LLM 基準測試：基本概念

在過去幾年中，作為廣泛的 AI 革命的一部分，生成式 AI 和大語言模型 (LLMs) 越來越受歡迎。

4 MIN READ

2025年 4月 2日

NVIDIA Blackwell 在 MLPerf Inference v5.0 中實現巨大的性能飛躍

在不斷增長的模型大小、實時延遲要求以及最近的 AI 推理的推動下，大語言模型 (LLM) 推理的計算需求正在快速增長。與此同時，

3 MIN READ

2025年 3月 25日

借助 NVIDIA Mission Control 實現 AI 工廠自動化

DeepSeek-R1 等先進的 AI 模型證明，企業現在可以構建專用于自己的數據和專業知識的尖端 AI 模型。

2 MIN READ

2025年 3月 20日

借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能

微軟與 NVIDIA 合作，宣布在其 Azure AI Foundry 平臺上實現 Meta Llama 系列模型的變革性性能提升。

1 MIN READ

2025年 3月 19日

AI 推理時代的 NVIDIA Blackwell Ultra

多年來，AI 的進步一直通過預訓練擴展遵循清晰的軌跡：更大的模型、更多的數據和更豐富的計算資源帶來了突破性的功能。在過去 5 年中，

2 MIN READ

2025年 3月 18日

隆重推出 NVIDIA Dynamo：用于擴展推理AI模型的低延遲分布式推理框架

NVIDIA 今天在 GTC 2025 宣布發布 NVIDIA Dynamo 。NVIDIA Dynamo 是一個高吞吐量、

4 MIN READ

2025年 3月 18日

NVIDIA Blackwell 實現世界紀錄的 DeepSeek-R1 推理性能

NVIDIA 在 NVIDIA GTC 2025 上宣布了創下世界紀錄的 DeepSeek-R1 推理性能。搭載 8 個 NVIDIA…

5 MIN READ

2025年 3月 18日

借助 NVIDIA DGX 云無服務器推理在云環境中無縫擴展人工智能

NVIDIA DGX Cloud Serverless Inference 是一種自動擴展 AI 推理解決方案，可實現快速可靠的應用部署。

3 MIN READ

2025年 2月 28日

聚焦：NAVER Place 利用 NVIDIA TensorRT-LLM 優化 SLM 基礎的垂直服務

NAVER 是一家韓國熱門搜索引擎公司，提供 Naver Place ，這是一項基于地理的服務，可提供有關韓國數百萬家企業和興趣點的詳細信息。

4 MIN READ

2025年 2月 14日

使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量

專注于編碼的大語言模型（LLMs）已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體，這些模型可幫助開發者完成各種任務，

3 MIN READ

2025年 2月 13日

使用 DeepSeek-R1 和推理時間縮放實現自動化 GPU 內核生成

隨著 AI 模型擴展其功能以解決更復雜的挑戰，一種稱為“ 測試時擴展 ”或“ 推理時擴展 ”的新擴展法則正在出現。

2 MIN READ

2025年 2月 5日

NVIDIA Blackwell 上的 OpenAI Triton 提升 AI 性能和可編程性

矩陣乘法和注意力機制是現代 AI 工作負載的計算支柱。雖然庫如 NVIDIA cuDNN 提供高度優化的實現，

2 MIN READ

2024年 12月 24日

借助 NVIDIA 全棧解決方案提升 AI 推理性能

AI 驅動的應用的爆炸式發展對開發者提出了前所未有的要求，他們必須在提供先進的性能與管理運營復雜性和成本以及 AI 基礎設施之間取得平衡。

2 MIN READ