Benchmark

2025年 2月 14日
使用 NVIDIA TensorRT-LLM 前瞻性解碼優化 Qwen2.5-Coder 吞吐量
專注于編碼的 大語言模型(LLMs) 已穩步應用于開發者工作流程。從配對編程到自我改進的 AI 智能體 ,這些模型可幫助開發者完成各種任務,
3 MIN READ

2025年 1月 16日
利用 RAPIDS cuML 加速時間序列預測
時間序列預測是一種強大的數據科學技術,用于根據過去的數據點預測未來值 借助 skforecast 等開源 Python 庫,
2 MIN READ

2025年 1月 16日
NVIDIA JetPack 6.2 為 NVIDIA Jetson Orin Nano 和 Jetson Orin NX 模塊引入超級模式
NVIDIA Jetson Orin Nano 超級開發者套件 的推出為小型邊緣設備開啟了 生成式 AI 的新時代。
7 MIN READ

2024年 12月 19日
RAPIDS 24.12 推出基于 PyPI 的 cuDF、適用于 Polar 的 CUDA 統一內存和更快的 GNN
RAPIDS 24.12 將 cuDF 包引入 PyPI,加快了 聚合和從 AWS S3 讀取文件的速度,
3 MIN READ

2024年 12月 17日
借助 NVIDIA TensorRT-LLM 預測解碼,將 Llama 3.3 的推理吞吐量提升 3 倍
隨著近期新增的 Llama 3.3 70B (一種純文本指令調整模型),Meta 的開放 大語言模型 (LLMs) 集合將繼續增長。
4 MIN READ

2024年 11月 19日
Llama 3.2 全棧優化釋放 NVIDIA GPU 的高性能
Meta 最近發布了 Llama 3.2 系列視覺語言模型(VLM),其中包含 11B 參數和 90B 參數變體。這些模型是多模態模型,
2 MIN READ

2024年 11月 15日
借助 NVIDIA TensorRT-LLM 分塊預填充提高 AI 推理效率和簡化部署
在本 博文 中,我們詳細介紹了分塊預填充,這是 NVIDIA TensorRT-LLM 的一項功能,
1 MIN READ

2024年 11月 13日
NVIDIA Blackwell 在 MLPerf 訓練 v4.1 中將 LLM 訓練性能提高一倍
隨著模型規模的擴大以及使用更多數據進行訓練,它們的能力也隨之提升,實用性也隨之提升。為了快速訓練這些模型,需要在數據中心規模上提供更高的性能。
3 MIN READ

2024年 11月 8日
NVIDIA TensorRT-LLM KV 緩存早期重用實現首個令牌速度 5 倍提升
在上一篇 博客文章 中,我們展示了通過將鍵值 (KV) 緩存卸載到 CPU 內存來重復使用該緩存如何在基于 x86 的 NVIDIA…
2 MIN READ

2024年 11月 6日
借助 NVIDIA NeMo 開發前沿的多模態生成式 AI 模型
生成式 AI 已從基于文本的模型迅速發展為多模態功能。這些模型執行圖像字幕和視覺問答等任務,反映了向更接近人類的 AI 的轉變。
2 MIN READ

2024年 10月 31日
RAPIDS cuML 助力 GPU 實現 UMAP 的高速擴展
UMAP 是一種常用的降維算法,用于生物信息學、NLP 主題建模和 ML 預處理等領域。它的工作原理是創建 k 近鄰(k…
3 MIN READ

2024年 10月 8日
Mistral-NeMo-Minitron 8B 模型提供超高精度
本文最初發布于 2024 年 8 月 21 日,但已根據當前數據進行了修訂。 最近,NVIDIA 和 Mistral AI 推出了…
3 MIN READ

2024年 10月 3日
新的獎勵模型有助于改善 LLM 與人類偏好的匹配
從人類反饋中進行強化學習(Reinforcement learning from human…
1 MIN READ

2024年 9月 11日
使用 RAPIDS cuDF pandas 加速器模式處理 10 億行數據
十億行挑戰賽 (One Billion Row Challenge) 是一個有趣的基準測試,旨在展示基本的數據處理操作。
3 MIN READ

2024年 9月 11日
實現可定制的 GPU 加速視頻轉碼流程
如今,視頻占據互聯網流量的80%以上。這些內容由各種設備生成并在各種設備上使用,包括IoT設備、智能手機、計算機和電視。
4 MIN READ

2024年 8月 28日
NVIDIA Blackwell 平臺在 MLPerf Inference v4.1 中創下新的 LLM 推理記錄
大型語言模型 (LLM) 推理是一項全棧挑戰。實現高吞吐量、低延遲推理需要強大的 GPU、高帶寬 GPU 之間的互連、
4 MIN READ