在對進程進行監控時,咱們通常須要獲得該進程的 ID,進程 ID 是進程的惟一標識,可是有時可能在服務器上不一樣用戶下運行着多個相同進程名的進程,下面的函數 GetPID 給出了獲取指定用戶下指定進程名的進程 ID 功能(目前只考慮這個用戶下啓動一個此進程名的進程),它有兩個參數爲用戶名和進程名,它首先使用 ps 查找進程信息,同時經過 grep 過濾出須要的進程,最後經過 sed 和 awk 查找須要進程的 ID 值(此函數可根據實際狀況修改,好比須要過濾其它信息等)。linux
function GetPID #User #Name { PsUser=$1 PsName=$2 pid=`ps -u $PsUser|grep $PsName|grep -v grep|grep -v vi|grep -v dbx\n |grep -v tail|grep -v start|grep -v stop |sed -n 1p |awk '{print $1}'` echo $pid }
示例演示:正則表達式
1)源程序(例如查找用戶爲 root,進程名爲 CFTestApp 的進程 ID)shell
PID=`GetPID root CFTestApp` echo $PID
2)結果輸出編程
11426 [dyu@xilinuxbldsrv shell]$
3)結果分析服務器
從上面的輸出可見:11426 爲 root 用戶下的 CFTestApp 程序的進程 ID。網絡
4)命令介紹tcp
1. ps: 查看系統中瞬間進程信息。 參數:-u< 用戶識別碼 > 列出屬於該用戶的程序的情況,也可以使用用戶名稱來指定。 -p< 進程識別碼 > 指定進程識別碼,並列出該進程的情況。 -o 指定輸出格式 2. grep: 用於查找文件中符合字符串的當前行。 參數:-v 反向選擇,亦即顯示出沒有 '搜尋字符串' 內容的那一行。 3. sed: 一個非交互性文本編輯器,它編輯文件或標準輸入導出的文件,一次只能處理一行內容。 參數:-n 讀取下一個輸入行,用下一個命令處理新的行而不是用第一個命令。 p 標誌 打印匹配行 4. awk:一種編程語言,用於在 linux/unix 下對文本和數據進行處理。數據能夠來自標準輸入、一個或多個文件,或其它命令的輸出。它支持用戶自定義函數和動態正則表達式等先進功能,是 linux/unix 下的一個強大編程工具。它在命令行中使用,但更可能是做爲腳原本使用。awk 的處理文本和數據的方式:它逐行掃描文件,從第一行到最後一行,尋找匹配的特定模式的行,並在這些行上進行你想要的操做。若是沒有指定處理動做,則把匹配的行顯示到標準輸出 ( 屏幕 ),若是沒有指定模式,則全部被操做所指定的行都被處理。 參數:-F fs or --field-separator fs :指定輸入文件折分隔符,fs 是一個字符串或者是一個正則表達式,如 -F:。編程語言
有時有可能進程沒有啓動,下面的功能是檢查進程 ID 是否存在,若是此進程沒有運行輸出:編輯器
The process does not exist. # 檢查進程是否存在 if [ "-$PID" == "-" ] then { echo "The process does not exist." } fi
在對應用服務進行維護時,咱們常常遇到因爲 CPU 太高致使業務阻塞,形成業務中斷的狀況。CPU 太高可能因爲業務量過負荷或者出現死循環等異常狀況,經過腳本對業務進程 CPU 進行時時監控,能夠在 CPU 利用率異常時及時通知維護人員,便於維護人員及時分析,定位,以及避免業務中斷等。下面的函數可得到指定進程 ID 的進程 CPU 利用率。它有一個參數爲進程 ID,它首先使用 ps 查找進程信息,同時經過 grep -v 過濾掉 %CPU 行,最後經過 awk 查找 CPU 利用百分比的整數部分(若是系統中有多個 CPU,CPU 利用率能夠超過 100%)。函數
function GetCpu { CpuValue=`ps -p $1 -o pcpu |grep -v CPU | awk '{print $1}' | awk - F. '{print $1}'` echo $CpuValue }
下面的功能是經過上面的函數 GetCpu 得到此進程的 CPU 利用率,而後經過條件語句判斷 CPU 利用率是否超過限制,若是超過 80%(能夠根據實際狀況進行調整),則輸出告警,不然輸出正常信息。
function CheckCpu { PID=$1 cpu=`GetCpu $PID` if [ $cpu -gt 80 ] then { echo 「The usage of cpu is larger than 80%」 } else { echo 「The usage of cpu is normal」 } fi }
示例演示:
1)源程序(假設上面已經查詢出 CFTestApp 的進程 ID 爲 11426)
CheckCpu 11426
2)結果輸出
The usage of cpu is 75 The usage of cpu is normal [dyu@xilinuxbldsrv shell]$
3)結果分析
從上面的輸出可見:CFTestApp 程序當前的 CPU 使用爲 75%,是正常的,沒有超過 80% 的告警限制。
在對應用服務進行維護時,也常常遇到因爲內存使用過大致使進程崩潰,形成業務中斷的狀況(例如 32 位程序可尋址的最大內存空間爲 4G,若是超出將申請內存失敗,同時物理內存也是有限的)。內存使用太高可能因爲內存泄露,消息堆積等狀況,經過腳本對業務進程內存使用量進行時時監控,能夠在內存使用量異常時及時發送告警(例如經過短信),便於維護人員及時處理。下面的函數可得到指定進程 ID 的進程內存使用狀況。它有一個參數爲進程 ID,它首先使用 ps 查找進程信息,同時經過 grep -v 過濾掉 VSZ 行 , 而後經過除 1000 取以兆爲單位的內存使用量。
function GetMem { MEMUsage=`ps -o vsz -p $1|grep -v VSZ` (( MEMUsage /= 1000)) echo $MEMUsage }
下面的功能是經過上面的函數 GetMem
得到此進程的內存使用,而後經過條件語句判斷內存使用是否超過限制,若是超過 1.6G(能夠根據實際狀況進行調整),則輸出告警,不然輸出正常信息。
mem=`GetMem $PID` if [ $mem -gt 1600 ] then { echo 「The usage of memory is larger than 1.6G」 } else { echo 「The usage of memory is normal」 } fi
示例演示:
1)源程序(假設上面已經查詢出 CFTestApp 的進程 ID 爲 11426)
mem=`GetMem 11426` echo "The usage of memory is $mem M" if [ $mem -gt 1600 ] then { echo "The usage of memory is larger than 1.6G" } else { echo "The usage of memory is normal" } fi
2)結果輸出
The usage of memory is 248 M The usage of memory is normal [dyu@xilinuxbldsrv shell]$
3)結果分析
從上面的輸出可見:CFTestApp 程序當前的內存使用爲 248M,是正常的,沒有超過 1.6G 的告警限制。
在對應用服務進行維護時,也常常遇到因爲句柄使用 過量致使業務中斷的狀況。每一個平臺對進程的句柄使用都是有限的,例如在 Linux 平臺,咱們可使用 ulimit – n 命令(open files (-n) 1024)或者對 /etc/security/limits.conf 的內容進行查看,獲得進程句柄限制。句柄使用太高可能因爲負載太高,句柄泄露等狀況,經過腳本對業務進程句柄使用量進行時時監控,能夠在異常時及時發送告警(例如經過短信),便於維護人員及時處理。下面的函數可得到指定進程 ID 的進程句柄使用狀況。它有一個參數爲進程 ID,它首先使用 ls 輸出進程句柄信息,而後經過 wc -l 統計輸出句柄個數。
function GetDes { DES=`ls /proc/$1/fd | wc -l` echo $DES }
下面功能是經過上面的函數 GetDes
得到此進程的句柄使用量,而後經過條件語句判斷句柄使用是否超過限制,若是超過 900(能夠根據實際狀況進行調整)個,則輸出告警,不然輸出正常信息。
des=` GetDes $PID` if [ $des -gt 900 ] then { echo 「The number of des is larger than 900」 } else { echo 「The number of des is normal」 } fi
示例演示:
1)源程序(假設上面查詢出 CFTestApp 的進程 ID 爲 11426)
des=`GetDes 11426` echo "The number of des is $des" if [ $des -gt 900 ] then { echo "The number of des is larger than 900" } else { echo "The number of des is normal" } fi
2)結果輸出
The number of des is 528 The number of des is normal [dyu@xilinuxbldsrv shell]$
3)結果分析
從上面的輸出可見:CFTestApp 程序當前的句柄使用爲 528 個,是正常的,沒有超過 900 個的告警限制。
4)命令介紹
wc: 統計指定文件中的字節數、字數、行數 , 並將統計結果顯示輸出。 參數:-l 統計行數。 -c 統計字節數。 -w 統計字數。
端口檢測是系統資源檢測常常遇到的,特別是在網絡通信狀況下,端口狀態的檢測每每是很重要的。有時可能進程,CPU,內存等處於正常狀態,可是端口處於異常狀態,業務也是沒有正常運行。下面函數可判斷指定端口是否在監聽。它有一個參數爲待檢測端口,它首先使用 netstat 輸出端口占用信息,而後經過 grep, awk,wc 過濾輸出監聽 TCP 端口的個數,第二條語句爲輸出 UDP 端口的監聽個數,若是 TCP 與 UDP 端口監聽都爲 0,返回 0,不然返回 1.
function Listening { TCPListeningnum=`netstat -an | grep ":$1 " | \n awk '$1 == "tcp" && $NF == "LISTEN" {print $0}' | wc -l` UDPListeningnum=`netstat -an|grep ":$1 " \n |awk '$1 == "udp" && $NF == "0.0.0.0:*" {print $0}' | wc -l` (( Listeningnum = TCPListeningnum + UDPListeningnum )) if [ $Listeningnum == 0 ] then { echo "0" } else { echo "1" } fi }
示例演示:
1)源程序(例如查詢 8080 端口的狀態是否在監聽)
isListen=`Listening 8080` if [ $isListen -eq 1 ] then { echo "The port is listening" } else { echo "The port is not listening" } fi
2)結果輸出
The port is listening [dyu@xilinuxbldsrv shell]$
3)結果分析
從上面的輸出可見:這個 Linux 服務器的 8080 端口處在監聽狀態。
4)命令介紹
netstat: 用於顯示與 IP、TCP、UDP 和 ICMP 協議相關的統計數據,通常用於檢驗本機各端口的網絡鏈接狀況。 參數:-a 顯示全部連線中的 Socket。 -n 直接使用 IP 地址,而不經過域名服務器。
下面的功能也是檢測某個 TCP 或者 UDP 端口是否處在正常狀態。
tcp: netstat -an|egrep $1 |awk '$6 == "LISTEN" && $1 == "tcp" {print $0}' udp: netstat -an|egrep $1 |awk '$1 == "udp" && $5 == "0.0.0.0:*" {print $0}'
命令介紹
egrep: 在文件內查找指定的字符串。egrep 執行效果如 grep -E,使用的語法及參數可參照 grep 指令,與 grep 不一樣點在於解讀字符串的方法,egrep 是用擴展的正則表達式語法來解讀,而 grep 則用基本的正則表達式語法,擴展的正則表達式比基本的正則表達式有更完整的表達規範。
有時咱們可能須要獲得服務器上某個進程的啓動個數,下面的功能是檢測某個進程正在運行的個數,例如進程名爲 CFTestApp。
Runnum=`ps -ef | grep -v vi | grep -v tail | grep "[ /]CFTestApp" | grep -v grep | wc -l
在對服務器進行維護時,有時也遇到因爲系統 CPU(利用率)負載 過量致使業務中斷的狀況。服務器上可能運行多個進程,查看單個進程的 CPU 都是正常的,可是整個系統的 CPU 負載多是異常的。經過腳本對系統 CPU 負載進行時時監控,能夠在異常時及時發送告警,便於維護人員及時處理,預防事故發生。下面的函數能夠檢測系統 CPU 使用狀況 . 使用 vmstat 取 5 次系統 CPU 的 idle 值,取平均值,而後經過與 100 取差獲得當前 CPU 的實際佔用值。
function GetSysCPU { CpuIdle=`vmstat 1 5 |sed -n '3,$p' \n |awk '{x = x + $15} END {print x/5}' |awk -F. '{print $1}' CpuNum=`echo "100-$CpuIdle" | bc` echo $CpuNum }
示例演示:
1)源程序
cpu=`GetSysCPU` echo "The system CPU is $cpu" if [ $cpu -gt 90 ] then { echo "The usage of system cpu is larger than 90%" } else { echo "The usage of system cpu is normal" } fi
2)結果輸出
The system CPU is 87 The usage of system cpu is normal [dyu@xilinuxbldsrv shell]$
3)結果分析
從上面的輸出可見:當前 Linux 服務器系統 CPU 利用率爲 87%,是正常的,沒有超過 90% 的告警限制。
4)命令介紹
vmstat:Virtual Meomory Statistics(虛擬內存統計)的縮寫,可對操做系統的虛擬內存、進程、CPU 活動進行監視。
參數: -n 表示在週期性循環輸出時,輸出的頭部信息僅顯示一次。
系統磁盤空間檢測是系統資源檢測的重要部分,在系統維護維護中,咱們常常須要查看服務器磁盤空間使用狀況。由於有些業務要時時寫話單,日誌,或者臨時文件等,若是磁盤空間用盡,也可能會致使業務中斷,下面的函數能夠檢測當前系統磁盤空間中某個目錄的磁盤空間使用狀況 . 輸入參數爲須要檢測的目錄名,使用 df 輸出系統磁盤空間使用信息,而後經過 grep 和 awk 過濾獲得某個目錄的磁盤空間使用百分比。
function GetDiskSpc { if [ $# -ne 1 ] then return 1 fi Folder="$1$" DiskSpace=`df -k |grep $Folder |awk '{print $5}' |awk -F% '{print $1}' echo $DiskSpace }
示例演示:
1)源程序(檢測目錄爲 /boot)
Folder="/boot" DiskSpace=`GetDiskSpc $Folder` echo "The system $Folder disk space is $DiskSpace%" if [ $DiskSpace -gt 90 ] then { echo "The usage of system disk($Folder) is larger than 90%" } else { echo "The usage of system disk($Folder) is normal" } fi
2)結果輸出
The system /boot disk space is 14% The usage of system disk(/boot) is normal [dyu@xilinuxbldsrv shell]$
3)結果分析
從上面的輸出可見:當前此 Linux 服務器系統上 /boot 目錄的磁盤空間已經使用了 14%,是正常的,沒有超過使用 90% 的告警限制。
4)命令介紹
df:檢查文件系統的磁盤空間佔用狀況。能夠利用該命令來獲取硬盤被佔用了多少空間,目前還剩下多少空間等信息。 參數:-k 以 k 字節爲單位顯示。
在 Linux 平臺下,shell 腳本監控是一個很是簡單,方便,有效的對服務器,進程進行監控的方法,對系統開發以及進程維護人員很是有幫助。它不只能夠對上面的信息進行監控,發送告警,同時也能夠監控進程的日誌等等的信息,但願本文對你們有幫助