使用 DCGM 監控 Kubernetes 中的 GPU

Wed, 04 Nov 2020 01:07:00 +0000

對于基礎設施或站點可靠性工程（ SRE ）團隊來說，監控多個 GPU 對于管理大型 GPU 集群以實現 AI 或 HPC 工作負載至關重要。 GPU 指標允許團隊了解工作負載行為，從而優化資源分配和利用率，診斷異常，并提高數據中心的整體效率。除了基礎設施團隊之外，無論您是從事 GPU – 加速 ML 工作流的研究人員，還是喜歡了解 GPU 利用率和容量規劃飽和的數據中心設計師，您應該都對指標感興趣。這些趨勢變得更為重要，因為 AI / ML 工作負載通過使用 Kubernetes 之類的容器管理平臺進行容器化和擴展。在這篇文章中，我們將概述 NVIDIA 數據中心 GPU 經理（ DCGM ），以及如何將其集成到諸如 Prometheus 和 Grafana 這樣的開源工具中，從而為 Kubernetes 構建一個 GPU 監控解決方案。

Source

]]>

Ahmed Al-Sudani – NVIDIA 技術博客

使用 DCGM 監控 Kubernetes 中的 GPU