七12、告警系統郵件引擎、運行告警系統

七12、告警系統郵件引擎、運行告警系統linux

1、告警系統郵件引擎git

mail.sh內容     //其中mail.py內容到這裏下載https://coding.net/u/aminglinux/p/aminglinux-book/git/blob/master/D22Z/mail.pybash

郵件要有一個mail.py,以前用到過:服務器

[root@MRX shares]# cp /usr/lib/zabbix/alertscripts/mail.py ../mail/mail.pyide

mail.py的內容不需關注,spa

gserver = 'smtp.163.com'  //發郵件的服務器域名.net

mail.sh內容      路徑:/usr/local/sbin/mon/mail/mail.sh調試

  log=$1       日誌

t_s=`date +%s`server

t_s2=`date -d "2 hours ago" +%s`   #這兩個t_s是時間戳,時間戳和兩小時前的時間戳

if [ ! -f /tmp/$log ]       #運行監控腳本時就會生成監控日誌,日誌名字是ip地址下劃線+監控項目

then

   echo $t_s2 > /tmp/$log  #判斷日誌是否存在,不存在就記錄兩小時前的時間戳的日誌

fi

t_s2=`tail -1 /tmp/$log|awk '{print $1}'`

echo $t_s>>/tmp/$log

v=$[$t_s-$t_s2]        #兩個時間戳的比值差,經過上一次告警和這一次告警的時間戳比值來計算, 而後決定是否告警。

echo $v

if [ $v -gt 3600 ]   #若是大於3600秒了,就告警。

then

   ./mail.py  $1  $2  $3    #大於3600,直接執行mail.py告警。

   echo "0" > /tmp/$log.txt   #在前面日誌名字的基礎上加一個.txt,叫計數器的文件。

else

   if [ ! -f /tmp/$log.txt ]   #反之,若是小於3600,判斷,若是這個計數器文件不存在。

   then

       echo "0" > /tmp/$log.txt    #而後echo 0到計數器文件。

   fi

   nu=`cat /tmp/$log.txt`    #定義新變量,查看計數器裏的數字,若是計數器文件不存在,nu就等於0了

   nu2=$[$nu+1]               #原變量基礎上+1。

   echo $nu2>/tmp/$log.txt

   if [ $nu2 -gt 10 ]        #當變量大於10之後,才告警。就是告警到第10分鐘了,這個變量+1=11,就開始告警了,發完郵件,文件又清空了,又從頭再來。持續十分鐘,十分鐘後繼續發郵件。

   then

        ./mail.py  $1 "trouble continue 10 min $2" "$3"

        echo "0" > /tmp/$log.txt  #告警完後,從新計數,又變爲0

   fi

fi  


場景:監控502,告警了兩分鐘,第三分鐘好了,業務恢復時間持續了一個小時(3600s),超過一個小時之後又發現了異常,這時候就會直接發一封郵件,由於大於3600了,而後清空計數器。10分鐘之內連續發告警,而後就去收斂,哪怕10分鐘之內不連續告警,每隔一兩分鐘都須要去收斂。

核心:週期,十分鐘。

3600秒爲一個週期;計數器,10分鐘計數,連續十分鐘,就告警,十分鐘之內,就不告警。

mail.sh的目的是爲了作告警收斂

概括:

場景一:沒有超過一小時,不告警。

場景二:超過一小時,告警。

場景三:連續告警十分鐘,就發郵件,要麼就是不到十分鐘正常了一小時又不正常了,就直接告警發郵件。


2、運行告警系統

總結:

執行告警系統:每分鐘一次

# crontab -e

* * * * * cd /usr/local/sbin/mon/bin; bash main.sh

加入這一條,否則沒有辦法正常的執行成功。

# sh -x main.sh    能夠執行這條看過程。

502的腳本若是不能執行的話,能夠不監控,在mon.conf裏面講502開關關閉:to_mon_502=1,改成0。

在調試時,將main.sh中的這一步先註釋掉:

exec 1>>../log/mon.log 2>>../log/err.log

先不將日誌寫進去。

mail.py發送文件的內容:

/bin/bash ../mail/mail.sh aaa@163.com "$addr\_load:$load" `cat ../log/load.tmp`

把文件的內容做爲第三個參數。

相關文章
相關標籤/搜索