告警郵件引擎的核心,conf主配置文件調用到的都是mail.sh 告警郵件引擎的核心須要定義調用mail.py的sh腳本,由於以前作zabbix的時候,作過mail.py的腳本,在這裏,直接調用進行使用就能夠。bash
mail.sh目的是作告警收斂,若是不想作告警收斂,在發現問題的時候直接告警就好,可是,可能會發生1分鐘前發現問題,1分鐘後問題解決,這樣就會變成誤報,這樣告警的意義會下降,收斂的目的就是1分鐘前發現問題,而後到10分鐘後,服務尚未恢復,就會告訴管理人員10分鐘了服務還未恢復,能夠看作是一個告警的延遲判斷或緩衝服務器
mail.py內容,mail.sh用於調用mail.py以及作告警郵件的收斂spa
#!/bin/bash log=$1 t_s=`date +%s` t_s2=`date -d "2 hours ago" +%s` ##定義2個小時的時間戳 #日誌不存在就建立日誌 if [ ! -f /tmp/$log ] then echo $t_s2 > /tmp/$log fi #下面這段,等同於一個計時器 t_s2=`tail -1 /tmp/$log|awk '{print $1}'` echo $t_s>>/tmp/$log v=$[$t_s-$t_s2] ##時間戳對比 echo $v #當故障存在3600秒,就會進行告警 if [ $v -gt 3600 ] then ./mail.py $1 $2 $3 echo "0" > /tmp/$log.txt ##等同於計數器 else if [ ! -f /tmp/$log.txt ] then echo "0" > /tmp/$log.txt fi nu=`cat /tmp/$log.txt` nu2=$[$nu+1] echo $nu2>/tmp/$log.txt if [ $nu2 -gt 10 ] then ./mail.py $1 "trouble continue 10 min $2" "$3" echo "0" > /tmp/$log.txt ##郵件告警結束之後,從新開始計數 fi fi
該腳本運用於,間隔3600秒的故障;10分鐘內故障;間歇性故障;.net
核心的判斷:計時、計數日誌
20.26 運行告警系統code
由於告警系統的做用是監控系統的負載等各項服務器功能的使用狀況,因此執行告警系統,須要每分鐘執行一次blog
crontab -e ##建立任務計劃(每分鐘執行一次) * * * * * cd /usr/local/sbin/mon/bin ; bahs main.sh
注:監控發送郵件的部分,儘可能少用空格,由於mail.py發送郵件是以空格來定義三個參數的crontab
定義好計劃之後,重啓計劃,查看load的檢測值是否爲0get