zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態:前端


zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

1、zabbix監控GPU溫度web

一、zabbix_agent端操做:shell

進入zabbix_agent安裝目錄:
cd /usr/local/zabbix/etcvim

查看cpu顯卡信息: bash

nvidia-smi     獲取到三塊顯卡信息:

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

建立三個文件 (有幾塊顯卡就建立幾個):
根據顯卡編號建立 從0開始
touch gpu_temperature_v{0..2}.sh 
chmod o+x gpu_temperature_v*

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

使用awk命令獲取到每一個顯卡的溫度值 根據本身的顯卡位置數:ide

獲取第9行信息過濾:
    nvidia-smi|awk 'NR==9'|awk '{print$3}' |awk -FC '{print$1}'

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

nvidia-smi|awk 'NR==12'|awk '{print$3}' |awk -FC '{print$1}'
nvidia-smi|awk 'NR==15'|awk '{print$3}' |awk -FC '{print$1}'

獲取到的添加到對於的.sh腳本中學習

cat gpu_temperature_v0.sh 

    #!/bin/bash
    nvidia-smi|awk 'NR==9'|awk '{print$3}' |awk -FC '{print$1}'

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態)3d

zabbix-agentd裏配置:rest

vim /usr/local/zabbix/etc/zabbix_agentd.conf
    添加:
    UserParameter=gpu_temperature_v0.sh,/usr/local/zabbix/etc/gpu_temperature_v0.sh
    UserParameter=gpu_temperature_v1.sh,/usr/local/zabbix/etc/gpu_temperature_v1.sh
    UserParameter=gpu_temperature_v2.sh,/usr/local/zabbix/etc/gpu_temperature_v2.sh
    UserParameter=gpu_temperature_v3.sh,/usr/local/zabbix/etc/gpu_temperature_v3.sh

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

gpu自身的監控:
            nvidia-smi 
    每2秒監控一次:
            watch -n 2 nvidia-smi
    從新zabbix_agent:

zabbix WEB端操做:code

一、選擇對於的主機、建立zabbix監控項

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

二、名稱zabbix_aagent配置裏的名稱、鍵值腳本名字 添加監控項:

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

三、配置觸發器 名稱建立成同樣的

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

四、配置監控圖形

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

名稱都建立爲同樣的:

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態
查看圖形獲取信息
zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

依次建立3個圖形信息
五、前端配置圖形界面 配置完 顯卡存儲後最終效果

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態
zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

2、zabbix監控GPU顯存使用狀態

進入zabbix_agent安裝目錄:
一、GPU使用信息獲取:

cd /usr/local/zabbix/etc/video_memory
    查看GPU顯存使用狀態:
    nvidia-smi

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

4塊gpu建立4個shell腳本:
    touch gpu_video_memory_v{0..3}.sh
    chmod o+x gpu_video_memory_v*

    nvidia-smi -q | grep -A 3  "FB Memory Usage"

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

分別單獨獲取每塊gpu已使用信息:
    nvidia-smi -q | grep -A 3  "FB Memory Usage" | grep Used | awk '{print $3}' | awk 'NR==1 {print}'
    nvidia-smi -q | grep -A 3  "FB Memory Usage" | grep Used |awk '{print $3}'|awk 'NR==2 {print}'
    nvidia-smi -q | grep -A 3  "FB Memory Usage" | grep Used |awk '{print $3}'|awk 'NR==3 {print}'
    nvidia-smi -q | grep -A 3  "FB Memory Usage" | grep Used | awk '{print $3}' | awk 'NR==4 {print}'

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

二、zabbix_agent配置文件操做:

命名鍵值:gpu_video_memory_v0.......
    ######### GPU video_memory  mib############
    UserParameter=gpu_video_memory_v0,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v0.sh
    UserParameter=gpu_video_memory_v1,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v1.sh
    UserParameter=gpu_video_memory_v2,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v2.sh
    UserParameter=gpu_video_memory_v3,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v3.sh

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

配置完成重啓zabbix_agent:
    /etc/init.d/zabbix_agentd restart

三、zabbix web前端配置:

建立監控項:

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

配置觸發器:

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

配置完成後能看到綠色圖片則正常:

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

配置圖形 名稱都保持同樣:

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

最後再主界面配置圖形顯示:
一、建立圖形模塊:

    類型選擇圖形 、名稱儘可能填寫相同

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

選擇主機和剛纔建立的監控項:

zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態
全部操做有幾塊gpu顯卡就建立幾回:
最終效果:
zabbix監控GPU顯卡溫度 監控GPU顯卡使用狀態

.

.

.

.


最後:本人爲純小白,所寫博客爲我的學習記錄,如某些地方編寫有錯誤,或者涉及侵權的請聯繫我刪除或修改。Q Q:7721552郵箱:7721552@qq.com

相關文章
相關標籤/搜索