20.23/20.24/20.25 告警系統郵件引擎 20.26 運行告警系統

20.23/20.24/20.25 告警系統郵件引擎

由於以前作zabbix的時候,作過mail.py的腳本,在這裏,直接調用進行使用就能夠。linux

可是告警郵件引擎核心,conf主配置文件調用到的都是"mail.sh" ,因此這裏須要定義調用"mail.py"的sh腳本git

mail.sh目的是作告警收斂,若是不想作告警收斂,在發現問題的時候直接告警就好,可是,可能會發生1分鐘前發現問題,1分鐘戶問題解決,這樣就會變成誤報,這樣會很麻煩測試

收斂的目的就是1分鐘前發現問題,而後到10分鐘後,服務尚未恢復,就會告訴管理人員10分鐘了服務還未恢復.net

• mail.sh內容 //其中"mail.py"內容到這裏下載https://coding.net/u/aminglinux/p/aminglinux-book/git/blob/master/D22Z/mail.py日誌

#!/bin/bahs

log=$1   
t_s=`date +%s`
t_s2=`date -d "2 hours ago" +%s`  //定義2個小時的時間戳
#日誌不存在就建立日誌
if [ ! -f /tmp/$log ]
then
    echo $t_s2 > /tmp/$log
fi

#下面這段,等同於一個計時器

t_s2=`tail -1 /tmp/$log|awk '{print $1}'`
echo $t_s>>/tmp/$log
v=$[$t_s-$t_s2]   //時間戳對比
echo $v

#當故障存在3600秒,就會進行告警

if [ $v -gt 3600 ]
then
    ./mail.py  $1  $2  $3
    echo "0" > /tmp/$log.txt  //等同於計數器
else
    if [ ! -f /tmp/$log.txt ]
    then
        echo "0" > /tmp/$log.txt
    fi
    nu=`cat /tmp/$log.txt`
    nu2=$[$nu+1]
    echo $nu2>/tmp/$log.txt
    if [ $nu2 -gt 10 ]
    then
         ./mail.py  $1 "trouble continue 10 min $2" "$3"
         echo "0" > /tmp/$log.txt   //郵件告警結束之後,從新開始計數
    fi
fi

該腳本運用於,間隔3600 故障;10分鐘內故障;間歇性故障;code

核心判斷:計時、計數crontab

20.26 運行告警系統

要執行告警系統,確定要是每分鐘,執行一次get

crontab -e
* * * * * cd /usr/local/sbin/mon/bin ; bahs main.sh

監控發送郵件的部分,儘可能少用空格,由於mail.py發送郵件是以 空格來定義三個參數的it

開始測試ast

定義好計劃之後,重啓計劃

手動模擬生產一個錯誤的狀況,測試監控是否生效,是否能正常發送郵件

改動 load的檢測值爲 -lt 10

最後發現,根本不會發送郵件。/tmp/目錄下也不會產生所謂的計時和計數文件

相關文章
相關標籤/搜索