NVIDIA Triton 推理服務器在 MLPerf Inference 4.1 基準測試中實現出色性能

Wed, 28 Aug 2024 06:44:39 +0000

六年前，我們踏上了開發 AI 推理服務解決方案的旅程，該解決方案專為高吞吐量和時間敏感型生產用例而設計。當時，ML 開發者正在部署定制的、框架特定的 AI 解決方案，這推高了他們的運營成本，并且無法滿足其延遲和吞吐量服務級別協議。我們很早就決定構建一個多功能的開源服務器，能夠服務于任何模型，不管其AI后端框架如何。今天，NVIDIA Triton Inference Server 是 NVIDIA 最受歡迎的開源項目之一，被一些世界領先的組織用于在生產環境中部署 AI 模型，包括 Amazon、Microsoft、Oracle Cloud、American Express、Snap、Docusign 等。我們很高興地宣布，NVIDIA Triton 在配備 8 個 H200 GPU 的系統上運行，實現了一個重要的里程碑，與 MLPerf Inference v4.1…

Source

]]>

Shobhit Verma – NVIDIA 技術博客

NVIDIA Triton 推理服務器在 MLPerf Inference 4.1 基準測試中實現出色性能