有一個監控一直都是正常的,今天忽然收到報警郵件,上服務器查看服務又是正常的,可是報警郵件仍是沒恢復web
監控端進行腳本測試,發現是正常的shell
到監控端使用zabbix_get -s ip -p 端口 -k 監控的key 測試報ZBX_NOTSUPPORTED: Timeout while executing a shell script.服務器
檢查客戶端Timeout配置,改成最大的30秒事後才超時,將客戶端的進程數改爲10, StartAgents=10 而後重啓測試
仍是同樣在報錯。rest
到zabbix web端查看該服務器的這個監控項的最新數據,發現一直沒獲取到最新數據,顯示的仍是報警時間的數據。進程
而後到客戶端檢查進程 ps -ef | grep zabbix_agentd 發現變成了殭屍進程,以前使用/etc/ini.d/zabbix_agentd restart雖然提示重啓成功,但實際上並未重啓成功ip
接下來將進程一個個的給kill掉,而後在執行/etc/ini.d/zabbix_agentd start,在到服務端執行zabbix_get -s ip -p 端口 -k 監控的key 此次能夠正常獲取到數據了get
在等幾分鐘後,web監控頁面也獲取到了最新的數據,報警也提示恢復正常了監控