Ahmed Al-Sudani – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 05 Nov 2020 01:12:49 +0000
zh-CN
hourly
1
196178272 -
使用 DCGM 監控 Kubernetes 中的 GPU
http://www.open-lab.net/zh-cn/blog/monitoring-gpus-in-kubernetes-with-dcgm/
Wed, 04 Nov 2020 01:07:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=256
Continued]]>
對于基礎設施或站點可靠性工程( SRE )團隊來說,監控多個 GPU 對于管理大型 GPU 集群以實現 AI 或 HPC 工作負載至關重要。 GPU 指標允許團隊了解工作負載行為,從而優化資源分配和利用率,診斷異常,并提高數據中心的整體效率。除了基礎設施團隊之外,無論您是從事 GPU – 加速 ML 工作流的研究人員,還是喜歡了解 GPU 利用率和容量規劃飽和的數據中心設計師,您應該都對指標感興趣。 這些趨勢變得更為重要,因為 AI / ML 工作負載通過使用 Kubernetes 之類的容器管理平臺進行容器化和擴展。在這篇文章中,我們將概述 NVIDIA 數據中心 GPU 經理( DCGM ),以及如何將其集成到諸如 Prometheus 和 Grafana 這樣的開源工具中,從而為 Kubernetes 構建一個 GPU 監控解決方案。
Source
]]>
256
人人超碰97caoporen国产