如何解決機器監控遺漏的問題?想必是每一位運維同窗都會面臨的問題。服務器
所以,提供一套有效的機器監控標準,並持續優化標準的內容,從而造成良性循環,提升運維效率就成爲監控平臺的責任和義務。運維
咱們將各個業務體系運維中機器監控的共性部分進行梳理和排序,提煉出了在運維工做中必須接收報警短信的10項機器監控指標,分享給你們性能
接下來,我將詳細介紹機器監控標準的內容優化
CPU_IDLE < 10.net
MEM_USED_PERCENT > 90排序
NET_MAX_NIC_INOUT_PERCENT > 80內存
CPU_SERVER_LOADAVG_5 > 15get
DISK_MAX_PARTITION_USED_PERCENT > 95效率
DISK_TOTAL_WRITE_KB(可選項)監控
DISK_TOTAL_READ_KB(可選項)
CPU_WAIT_IO(可選項)
DISK_SDA_IO_UTIL(可選項)
NET_TCP_CURR_ESTAB(可選項)
NET_TCP_RETRANS(可選項)
DISK_TOTAL_IO_UTIL(可選項)
面臨的問題
1,碎片化:因服務器硬件的批次,廠商,型號,採購時間,OS類型等不一樣,致使監控標準化的難度增長。如內存大小,磁盤讀寫性能,網卡速率等,實際面臨的問題和安卓版本碎片化類似。以磁盤讀寫性能爲例,不一樣廠商,批次,型號,是否有RAID卡對磁盤讀寫性能均有影響,且隨着服務器交付業務後,運行強度和運行時間不一樣,也會形成磁盤讀寫性能有必定的不一樣。所以,如何監控一個公司內全部的服務器,就會成爲一個難題。
監控的技巧
1,極值法
CPU:重點監控CPU_IDLE小於10%的狀況
MEM:重點監控MEM_USED_PERCENT大於90%的狀況
NET:重點監控網卡入口/出口使用率大於90%的狀況
2,分時段不一樣閾值
DISK:業務流量高峯期閾值較爲敏感;業務流量低谷期閾值適度寬鬆
3,比例替代絕對值
MEM:由於機器內存總量不一,所以經過內存使用率能夠進行統一監控