NVIDIA NIM 1.4 現已部署可用，推理速度提升 2.4 倍

隨著生成式 AI 重塑各行各業，對可立即部署的高性能推理的需求也在不斷增長。 NVIDIA NIM 為 AI 模型推理提供生產就緒型微服務容器，不斷提高企業級生成式 AI 性能。即將推出的 NIM 版本 1.4 定于 12 月初發布，開箱即用的請求性能可提升高達 2.4 倍，并提供相同的單命令部署體驗。

NIM 的核心是多個 LLM 推理引擎，包括 NVIDIA TensorRT-LLM ，可實現光速推理性能。在每個版本中，NIM 都整合了來自這些引擎的內核優化、內存管理和調度方面的最新進展，以提高性能。

The image shows a chart of throughput in tokens per second per user for the Llama 3.1 8B NIM version 1.4 versus the Llama 3.1 8B NIM version 1.2, demonstrating up to 2.4 faster token generation for NIM 1.4 compared with NIM 1.2. — *圖 1、與 NIM 1.2 相比，NVIDIA NIM 1.4 吞吐量。Llama 3.1 70B 2 個 H200-SXM 輸入令牌 8K，輸出令牌 256；Llama 3.1 8B 1 個 H100-SXM 輸入令牌 30K，輸出令牌 256。*

在 NIM 1.4 中，內核效率、運行時啟發式算法和內存分配有了顯著改進，推理速度提高了 2.4 倍。這些進步對于依賴快速響應和高吞吐量的生成式 AI 應用的企業至關重要。

NIM 還受益于全棧加速計算的持續更新，可提升計算堆棧各個級別的性能和效率。這包括對最新的 NVIDIA TensorRT 和 NVIDIA CUDA 版本的支持，進一步提高了推理性能。NIM 用戶無需手動更新軟件，即可從這些持續改進中受益。

An image shows a chart of request latency in seconds across different request per-second values for the Llama 3.1 8B NIM version 1.4 versus the Llama 3.1 8B NIM version 1.2, showing 2x faster request latency for NIM 1.4 compared with NIM 1.2. — *圖 2、NVIDIA Llama 3.1 8B NIM 1.4 與 Llama 3.1 8B NIM 1.2 在 1x H100SXM 上運行，輸入令牌 30K，輸出令牌 256* 。

NIM 整合了全套預配置軟件，提供高性能 AI 推理，并且配置簡單，使開發者能夠快速開始使用高性能推理。

持續創新循環意味著 TensorRT-LLM、CUDA 和其他核心加速計算技術的每項改進都會立即使 NIM 用戶受益。更新通過 NIM 微服務容器的更新無縫集成和交付，消除了手動配置的需求，并減少了通常與維護高性能推理解決方案相關的工程開銷。

立即開始使用?

NVIDIA NIM 是實現高性能生成式 AI 的捷徑，無需傳統模型部署和管理的復雜性。憑借企業級可靠性和支持以及持續的性能增強，NIM 使企業能夠使用高性能 AI 推理。了解詳情并立即開始使用。

NVIDIA NIM 1.4 現已部署可用，推理速度提升 2.4 倍

立即開始使用?

相關資源

標簽

關于作者

NVIDIA NIM 1.4 現已部署可用，推理速度提升 2.4 倍

立即開始使用?

相關資源

標簽

關于作者

相關文章

Llama 3.2 加速部署從邊緣到云端實現提速

借助 NVIDIA H100 Tensor Core GPU 和 NVIDIA TensorRT-LLM 實現出色的推理性能

相關文章

NVIDIA NIM Operator 2.0 借助 NVIDIA NeMo 微服務支持提高 AI 部署效率

NVIDIA Secure AI 正式發布

AI Fabric 的彈性以及網絡融合的重要性

NVIDIA 借助 NVIDIA DGX SuperPOD 加快 AI 工廠建設速度

斯坦福大學實驗室借助 NVIDIA DGX 云加速 RNA 折疊研究