機器監控項添加建議

如何解決機器監控遺漏的問題?想必是每一位運維同窗都會面臨的問題。服務器

  • 太多的機器監控內容,可能會產生無效的報警,對生活形成必定影響;
  • 太少的機器監控內容,可能會沒法及時發現異常,對服務穩定性形成影響;
  • 合理的機器監控內容,較高的報警準確度,雖然美好但卻須要長期積累;

所以,提供一套有效的機器監控標準,並持續優化標準的內容,從而造成良性循環,提升運維效率就成爲監控平臺的責任和義務。運維

咱們將各個業務體系運維中機器監控的共性部分進行梳理和排序,提煉出了在運維工做中必須接收報警短信的10項機器監控指標,分享給你們性能

接下來,我將詳細介紹機器監控標準的內容優化

CPU_IDLE < 10.net

MEM_USED_PERCENT > 90排序

NET_MAX_NIC_INOUT_PERCENT > 80內存

CPU_SERVER_LOADAVG_5 > 15get

DISK_MAX_PARTITION_USED_PERCENT > 95效率

DISK_TOTAL_WRITE_KB(可選項)監控

DISK_TOTAL_READ_KB(可選項)

CPU_WAIT_IO(可選項)

DISK_SDA_IO_UTIL(可選項)

NET_TCP_CURR_ESTAB(可選項)

NET_TCP_RETRANS(可選項)

DISK_TOTAL_IO_UTIL(可選項)

面臨的問題

1,碎片化:因服務器硬件的批次,廠商,型號,採購時間,OS類型等不一樣,致使監控標準化的難度增長。如內存大小,磁盤讀寫性能,網卡速率等,實際面臨的問題和安卓版本碎片化類似。以磁盤讀寫性能爲例,不一樣廠商,批次,型號,是否有RAID卡對磁盤讀寫性能均有影響,且隨着服務器交付業務後,運行強度和運行時間不一樣,也會形成磁盤讀寫性能有必定的不一樣。所以,如何監控一個公司內全部的服務器,就會成爲一個難題。

監控的技巧

1,極值法

CPU:重點監控CPU_IDLE小於10%的狀況

MEM:重點監控MEM_USED_PERCENT大於90%的狀況

NET:重點監控網卡入口/出口使用率大於90%的狀況

2,分時段不一樣閾值

DISK:業務流量高峯期閾值較爲敏感;業務流量低谷期閾值適度寬鬆

3,比例替代絕對值

MEM:由於機器內存總量不一,所以經過內存使用率能夠進行統一監控

原文連接:http://www.yunxiaobai.net/archives/12

相關文章
相關標籤/搜索