基於DCGM和Prometheus的GPU監控方案

基於DCGM和Prometheus的GPU監控方案 背景: 在早期的GPU監控中咱們會使用一些NVML工具來對GPU卡的基本信息進行採集,並持久化到監控系統的數據存儲層。由於咱們知道,其實經過nvidia-smi這樣的命令也是能夠獲取到GPU的基本信息的,但隨着整個AI市場的發展和成熟,對於GPU的監控也愈來愈須要一套標準化的工具體系,也就是本篇文章講的關於DCGM相關的監控解決方案。git DC
相關文章
相關標籤/搜索