【小項目】:使用shell編寫一個簡單的告警系統

筆記內容:使用shell編寫一個簡單的告警系統php

筆記日期:2017-11-28python


<br>mysql

  • 20.19 告警系統需求分析
  • 20.20 告警系統主腳本
  • 20.21 告警系統配置文件
  • 20.22 告警系統監控項目
  • 20.23/20.24/20.25 告警系統郵件引擎
  • 20.26 運行告警系統

<br>sql

20.19 告警系統需求分析


【小項目】:使用shell編寫一個簡單的告警系統
在這以前的筆記裏,將大部分的經常使用shell基本語法已經介紹完了,在這以後就是實戰一些小項目了。這個項目是作一個簡單的告警系統,用於完成一些簡單個性化的需求。shell

目錄結構與要求:vim

【小項目】:使用shell編寫一個簡單的告警系統

<br>
<br>bash

20.20 告警系統主腳本


shell項目-告警系統main.sh

首先咱們要編寫一個告警系統的主腳本,我這裏是放在了/usr/local/sbin/目錄下,這個主腳本的文件名稱爲main.sh,在編寫腳本以前咱們還須要建立一個完整的目錄結構:服務器

[root@localhost ~]# cd /usr/local/sbin/
[root@localhost /usr/local/sbin]# mkdir mon
[root@localhost /usr/local/sbin]# cd mon
[root@localhost /usr/local/sbin/mon]# mkdir bin conf shares log mail
[root@localhost /usr/local/sbin/mon]# cd bin
[root@localhost /usr/local/sbin/mon/bin]#vim main.sh

而後進入到以上建立的bin目錄下,編輯main.sh腳本, main.sh內容以下:dom

#!/bin/bash
#Written by aming.
# 是否打開發送郵件的開關,1爲打開
export send=1
# 過濾ip地址,爲了告訴咱們發送郵件的IP,注意這裏的網卡名稱要改成你的網卡名稱
export addr=`/sbin/ifconfig |grep -A1 "eth0: " |awk '/inet/ {print $2}'`
# 把當前路徑拿出來
dir=`pwd`
# 只須要最後一級目錄名
last_dir=`echo $dir|awk -F'/' '{print $NF}'`
# 下面的判斷目的是,保證執行腳本的時候,咱們在bin目錄裏,否則監控腳本、郵件和日誌頗有可能找不到
if [ $last_dir == "bin" ] || [ $last_dir == "bin/" ]; then
    # 定義配置文件所在的路徑
    conf_file="../conf/mon.conf"
else
    # 若是不在bin目錄下就退出整個腳本
    echo "you shoud cd bin dir"
    exit
fi
# 輸出正確日誌和錯誤日誌
exec 1>>../log/mon.log 2>>../log/err.log
# 給日誌記錄標記一個時間,還有系統負載
echo "`date +"%F %T"` load average"
# 執行load.sh子腳本
/bin/bash ../shares/load.sh
#先檢查配置文件中是否須要監控502.sh
if grep -q 'to_mon_502=1' $conf_file; then
    # 過濾出在配置文件中定義的日誌文件路徑
    export log=`grep 'logfile=' $conf_file |awk -F '=' '{print $2}' |sed 's/ //g'`
    /bin/bash  ../shares/502.sh
fi

<br>socket

20.21 告警系統配置文件


shell項目-告警系統mon.conf

主腳本編寫完以後,就是編寫配置文件,配置文件比較簡單裏面主要就是一些定義開關的開啓關閉狀態和日誌文件路徑等內容。配置文件要放在/usr/local/sbin/mon/conf/下,文件名稱必須爲mon.conf,由於在主腳本里已經定義了:

[root@localhost ~]# cd /usr/local/sbin/mon/conf/
[root@localhost /usr/local/sbin/mon/conf]# vim mon.conf

mon.conf文件的內容以下:

## to config the options if to monitor
## 定義mysql的服務器地址、端口以及user、password
to_mon_cdb=0   ##0 or 1, default 0,0 not monitor, 1 monitor
db_ip=10.20.3.13
db_port=3315
db_user=username
db_pass=passwd
## httpd   若是是1則監控,爲0不監控
to_mon_httpd=0
## php 若是是1則監控,爲0不監控
to_mon_php_socket=0
## http_code_502  須要定義訪問日誌的路徑
to_mon_502=1
# 定義日誌文件路徑
logfile=/data/log/xxx.xxx.com/access.log
## request_count   定義是否監控請求數量
to_mon_request_count=0
# 定義請求日誌的路徑
req_log=/data/log/www.discuz.net/access.log
# 定義域名
domainname=www.discuz.net

配置文件的參數能夠自定義,自己配置文件就是用來給用戶定義的。

<br>

20.22 告警系統監控項目


shell項目-告警系統load.sh

編寫子腳本,也就是監控項目,這個load.sh子腳本是必需要有的,這個腳本用來監控系統負載,由於在主腳本里已經定義了須要執行這個子腳原本進行監控系統負載。這個腳本須要放在/usr/local/sbin/mon/shares/ 目錄下,並且之後的子腳本都是放在這個目錄下,由於主腳本里已經定義了:

[root@localhost ~]# cd /usr/local/sbin/mon/shares/
[root@localhost /usr/local/sbin/mon/shares]# vim load.sh

load.sh內容以下:

#! /bin/bash
# 定義load的值
load=`uptime |awk -F 'average:' '{print $2}'|cut -d',' -f1|sed 's/ //g' |cut -d. -f1`
# 判斷系統負載是否高於預設值和發送郵件的開關是否打開
if [ $load -gt 10 ] && [ $send -eq "1" ]
then
    # 輸出一條日誌記錄,這個日誌會做爲郵件內容
    echo "$addr `date +%T` load is $load" >../log/load.tmp
    # 執行發郵件的腳本,這裏的郵箱地址寫你的郵箱地址
    /bin/bash ../mail/mail.sh your_email@163.com "$addr\_load:$load" `cat ../log/load.tmp`
fi
# 輸出日誌到主腳本中指定的日誌文件
echo "`date +%T` load is $load"

<br>

shell項目-告警系統502.sh

這個腳本用於監控502狀態碼發生的次數。

502.sh內容以下:

#! /bin/bash
# 截取一分鐘之前的時間
d=`date -d "-1 min" +%H:%M`
# 得到502狀態碼發生的次數
c_502=`grep :$d:  $log  |grep ' 502 '|wc -l`
# 次數大於預設值,而且發送郵件的開關爲打開狀態,就發送告警郵件
if [ $c_502 -gt 10 ] && [ $send == 1 ]; then
     # 記錄日誌信息做爲告警郵件的內容
     echo "$addr $d 502 count is $c_502">../log/502.tmp
     # 調用發送郵件的腳本
     /bin/bash ../mail/mail.sh $addr\_502 $c_502  ../log/502.tmp
fi
# 記錄日誌
echo "`date +%T` 502 $c_502"

<br>

shell項目-告警系統disk.sh

這個腳本是用來監控磁盤使用率的,這個腳本會把每一個磁盤分區挨個看一下。

disk.sh內容以下:

#! /bin/bash
# 先刪除以前記錄的日誌文件
rm -f ../log/disk.tmp
# 先把環境語言改成英文,由於是按照英文來進行過濾的
LANG=en
# 遍歷出df -h 命令結果中爲已用那一列的百分比數字
for r in `df -h |awk -F '[ %]+' '{print $5}'|grep -v Use`
do
    # 若是有分區的已用率大於90就記錄日誌
    if [ $r -gt 90 ] && [ $send -eq "1" ]
then
    echo "$addr `date +%T` disk useage is $r" >>../log/disk.tmp
fi
# 判斷日誌文件是否存在
if [ -f ../log/disk.tmp ]
then
    # 文件存在就發送郵件
    df -h >> ../log/disk.tmp
    /bin/bash ../mail/mail.sh $addr\_disk $r ../log/disk.tmp
    echo "`date +%T` disk useage is nook"
else
    # 不存在則記錄日誌
    echo "`date +%T` disk useage is ok"
fi

<br>

20.23/20.24/20.25 告警系統郵件引擎


shell項目-告警系統mail.sh:

在編寫mail.sh以前,先得準備一個發送郵件的功能性腳本,由於這個告警系統會在監控項出現問題的時候發送告警郵件,因此還須要編寫一個可以發送郵件的腳本,我這裏使用的腳本是python編寫的,這個腳本放在/usr/local/sbin/mon/mail 目錄下:

[root@localhost ~]# cd /usr/local/sbin/mon/mail
[root@localhost /usr/local/sbin/mon/mail]# vim mail.py

腳本內容以下:

#!/usr/bin/env python
#-*- coding: UTF-8 -*-
import os,sys
reload(sys)
sys.setdefaultencoding('utf-8')
import getopt
import smtplib
from email.MIMEText import MIMEText
from email.MIMEMultipart import MIMEMultipart
from  subprocess import *

def sendqqmail(username,password,mailfrom,mailto,subject,content):
    # 這裏要修改成你郵箱的smtp服務地址,例如163郵箱的話,就是:smtp.163.com
    gserver = 'smtp.example.com'
    gport = 25
    try:
        msg = MIMEText(unicode(content).encode('utf-8'))
        msg['from'] = mailfrom
        msg['to'] = mailto
        msg['Reply-To'] = mailfrom
        msg['Subject'] = subject
        smtp = smtplib.SMTP(gserver, gport)
        smtp.set_debuglevel(0)
        smtp.ehlo()
        smtp.login(username,password)
        smtp.sendmail(mailfrom, mailto, msg.as_string())
        smtp.close()
    except Exception,err:
        print "Send mail failed. Error: %s" % err

def main():
    to=sys.argv[1]
    subject=sys.argv[2]
    content=sys.argv[3]
##定義郵箱的帳號和密碼,你須要修改爲你本身的帳號和密碼
    sendqqmail('email@example.com','password','email@example.com',to,subject,content)
if __name__ == "__main__":
    main()

#####腳本使用說明######
#1. 首先定義好腳本中的郵箱帳號和密碼
#2. 腳本執行命令爲:python mail.py 目標郵箱 "郵件主題" "郵件內容"

而後再編寫mail.sh腳本,這個腳本是作告警收斂的,由於以後會設定1分鐘進行監控一次,因此主要用於控制當告警持續了10分鐘後才發送告警郵件,這個腳本和mail.py同樣也是放在mail/目錄下,腳本內容以下:

#!/bin/bash
# 拿到當前腳本的第一個參數,也就是以前在子腳本中定義的監控項的標識與機器IP
log=$1
# 當前的時間戳
t_s=`date +%s`
# 兩個小時以前的時間戳
t_s2=`date -d "2 hours ago" +%s`
# 判斷日誌是否不存在
if [ ! -f /tmp/$log ]
then
    # 若是日誌不存在就生成一個日誌,這個日誌的第一行就是兩個小時以前的時間戳
    echo $t_s2 > /tmp/$log
fi
# 截取日誌文件的最後一行,也就是拿出上一次的時間戳
t_s2=`tail -1 /tmp/$log|awk '{print $1}'`
# 把當前的時間戳寫入到日誌裏
echo $t_s>>/tmp/$log
# 計算兩個時間戳的時間差
v=$[$t_s-$t_s2]
echo $v
# 若是時間差大於一個小時,也就是第一次出現告警
if [ $v -gt 3600 ]
then
    # 就發送告警郵件
    /usr/bin/python /usr/local/sbin/mon/mail/mail.py $1 $2 $3
    # 而且生成一個新的日誌,用於記錄告警持續的次數
    echo "0" > /tmp/$log.txt
else
    # 時間差小於一小時就表明不是第一次告警了,因此判斷一下log.txt文件是否存在
    if [ ! -f /tmp/$log.txt ]
    then
        # 不存在就生成一個
        echo "0" > /tmp/$log.txt
    fi
    # 拿出log.txt文件的內容
    nu=`cat /tmp/$log.txt`
    # 進行計數
    nu2=$[$nu+1]
    # 而後再寫入到log.txt中,其實這個文件就至關因而一個計數器
    echo $nu2>/tmp/$log.txt
    # 判斷計的數是否大於10
    if [ $nu2 -gt 10 ]
    then
         # 是的話就發送一個告警郵件說明告警持續10分鐘了
         /usr/bin/python /usr/local/sbin/mon/mail/mail.py $1 "trouble continue 10 min $2" "$3"
         # 從新計數
         echo "0" > /tmp/$log.txt
    fi
fi

<br>

20.26 運行告警系統


想要正常的運行這個告警系統你須要寫一個任務計劃,每分鐘執行一次 main.sh 主腳本:

[root@localhost ~]# crontab -e
* * * * * cd /usr/local/sbin/mon/bin; bash main.sh

不過,我這裏因爲只是作實驗就不寫以上這個任務計劃了,直接手動運行,方便一會進行測試。在這以前須要修改一下配置文件,將to_mon_502改成0,由於本實驗環境中並無502.sh腳本里定義的站點目錄,因此打開這個監控項的話會報錯,而後還須要註釋掉 main.sh 主腳本中的寫入日誌那句代碼:

[root@localhost ~]# cd /usr/local/sbin/mon/conf
[root@localhost /usr/local/sbin/mon/conf]# vim mon.conf
# 改成 0
to_mon_502=0
[root@localhost /usr/local/sbin/mon/conf]# cd ../bin
[root@localhost /usr/local/sbin/mon/bin]# vim main.sh
# 註釋這一句代碼
# exec 1>>../log/mon.log 2>>../log/err.log

完成以上操做後,執行 main.sh 主腳本:

[root@localhost /usr/local/sbin/mon/bin]# sh  main.sh
2017-11-29 00:03:39 load average
00:03:39 load is 0
[root@localhost /usr/local/sbin/mon/bin]#

運行結果如上,沒有出現報錯信息,表明 load.sh 可以被正常執行。

以上已經驗證load.sh 能夠正常被執行了,接下來咱們再來測試一下可否正常發送郵件,首先修改一下load.sh中的判斷條件,修改爲小於10,由於要故意讓它報警:

[root@localhost ~]# cd /usr/local/sbin/mon/shares/
[root@localhost /usr/local/sbin/mon/shares]# vim load.sh
if [ $load -lt 10 ] && [ $send -eq "1" ]

而後到bin目錄下執行11次主腳本,由於我沒有定義任務計劃,因此須要模擬一分鐘執行一次的狀況,執行到第11次的時候會停頓一下,這是由於在發送郵件中:

[root@localhost /usr/local/sbin/mon/shares]# cd ../bin/
[root@localhost /usr/local/sbin/mon/bin]# sh main.sh

        ......執行11次

測試結果是郵件可以正常收到,內容以下圖:

【小項目】:使用shell編寫一個簡單的告警系統

<br>

完結:以上就是如何使用shell語言去編寫一個簡單監控系統,而且通過簡單的測試證實可以正常使用,若是實驗過程當中遇到問題歡迎私信。

相關文章
相關標籤/搜索