Ahmed Al-Sudani

Ahmed Al-Sudani 是 NVIDIA DCGM 團隊的軟件工程師。他致力于在數據中心環境中實現健康和性能監控。

Posts by Ahmed Al-Sudani

人工智能/深度學習

使用 DCGM 監控 Kubernetes 中的 GPU

對于基礎設施或站點可靠性工程( SRE )團隊來說,監控多個 GPU 對于管理大型 GPU 集群以實現 AI 或 HPC 工作負載至關重要。 6 MIN READ