眼下很是多企業信息化系統都有本身的監控平臺和監控手段,不論是採用哪一種手段去實現對系統的實時監控和故障告警,大多採用的方式也僅僅有兩種:集中式監控和分佈式監控。本文做者依據自身公司監控存在的問題,總結了一些經驗並提出一些在監控平臺的建議。以供你們參考學習,若有考慮不周的地方還但願你們多多批評指正。php
爲了更好、更有效的保障系統上線後的穩定的執行。html
對於server的硬件資源、性能、帶寬、port、進程、服務等都必須有一個可靠和可持續的監測機制,統計分析天天的各類數據,從而能及時反映出server哪裏存在性能瓶頸、安全隱患等。mysql
另外是要有危機意識,就是了解server有可能出現哪些嚴重的問題。出現這些問題後該怎樣去迅速處理。比方數據庫的數據丟失,日誌容量過大,被黑客入侵等等。ios
1、上線以前的準備工做web
一、首先是備份。作好定時備份策略,備份所有你以爲重要的數據。並且按期檢查你的備份是否有效、全面;sql
二、日誌輪換,無論你想用哪一種輪換方式。控制日誌增加避免驅動器已盡是你的目的;數據庫
三、作必定的安全措施。如防火牆iptables的訪問控制,用denyhosts防止黑客遠程暴力破解;安全
四、mysql遠程登陸權限等等;性能優化
五、最後就是server、網元設備的監控。網絡
2、監控策略
一、定義告警優先級策略
通常的監控到的結果是成功或者失敗,如Ping不通、訪問網頁出錯、鏈接不到Socket。發生時這些稱之爲故障,故障是最優先的告警。除此以外。還能監控到返回的延時、內容等,如Ping返回的延時、訪問網頁的時間、訪問網頁取到的內容等。
利用返回的結果可以本身定義告警條件。如Ping監控的返回延時一般是10-30ms之間。當延時大於100ms時候,表示網絡或者server可能出現故障。引發網絡響應慢,需要立刻檢查是否流量過大或者serverCPU過高等問題。
二、定義告警信息內容標準
當server或應用發生問題時告警信息內允許多,如告警執行業務名稱、serverIP、監控的線路、監控的服務錯誤級別、出錯信息、發生時間等。
預先定義告警內容及標準使收到的告警內容具備規範性及可讀性。這點對於用短信接受告警內容特別有意義,短信內容最可能是70個字符,要在70個字符全然知道故障內容比較困難。更需要預先定義內容規範。
如:「視頻直播server10.0.211.65 在2012-10-18 13:00電信線路監控第到1次失敗」,清晰明瞭的知道故障信息。
三、經過郵件接收匯總報表
天天收到一封站點server監控的彙總報表郵件,花個兩三分鐘就大體瞭解站點和server狀態。
四、 集中監控和分佈式監控相結合
大部分操做系統支持SNMP,開通管理很方便,也很安全。
SNMP缺點是比較佔用帶寬,會消耗必定的CPU和內存,在CPU過高和網絡流量大狀況下。沒法有效進行監控。
五、定義故障告警主次
對於監控同一臺server的服務,需要定義一個主要監控對象。當主要監控對象出現問題,僅僅發送主要監控對象的告警。其餘次要的監控對象暫停監控和告警。好比用Ping來作主要監控對象。假設Ping不通出現Timeout,表示server已經當機或者斷網。這時僅僅發送serverPing告警持續監控Ping,因爲再繼續監控和告警其餘服務已經沒有必要。
這樣能大大下降告警消息數量,又讓監控更加合理、更加有效率。
本地監控腳本的規範化部署
六、對在本地部署的監控腳本要進行統一規範的部署並記錄到KM系統。
七、實現對常見性故障業務自我修復功能
實現對常見性故障業務自我修復功能腳本進行統一部署並對修復後故障進行檢查告警檢查頻次很少於3次。
八、對監控的業務系統進行分級
一級系統實現7*24小時告警,二級系統實現7*12小時告警,三級系統實現5*8小時告警。
九、 監控範圍及目標
實現對負載均衡設備、網絡設備、server、存儲設備、安全設備、數據庫、中間件及應用軟件等IT資源的全面監控管理;同一時候本身主動收集、過濾、關聯和分析各類管理功能產生的故障事件。實現對故障的提早預警和高速定位。對網絡和業務應用等IT資源的性能進行監控,按期提供性能報表和趨勢報表,爲性能優化及將來系統擴容提供科學根據。
一般狀況下。咱們可以將監控對象這麼來分:
1.server監控,主要監控server如:CPU 負載、內存使用率、磁盤使用率、登錄用戶數、進程狀態、網卡狀態等。
2.應用程序監控,主要監控該應用程序的服務狀態,吞吐量和響應時間,因爲不一樣應用需要監控的對象不一樣,這裏不一一列舉。
3.數據庫監控,僅僅因此把數據庫監控單獨列出來。足以說明它的重要性。通常監控數據庫狀態,數據庫表或者表空間的使用狀況,是否有死鎖,錯誤日誌,性能信息等等。
4.網絡監控,主要監控當前的網絡情況,網絡流量等。
以上四條應該算是最主要的,也是保證站點正常執行必須要知道的幾點內容,這樣才幹實現咱們常說的「指揮若定之中。決勝千里以外」。
【附錄】商業免費:百度雲觀測、360雲監控、安全寶、監控寶(雲智慧)、阿里雲盾(自家產品) 鬥波server監控、安全狗、雲盾、AnyView(網絡警)和西西server流量監控管家是一款server管理軟件等
免費開源:cacti 、nagios 、ganglia 、zabbix 、Pingdom 、Munin、monitorix、MRTG、 Observer、 Zenoss 、Collectd、 Argus 、Monit、 Graphite 、Linux-dash和Simple Server Monitor 、sshtop等
商業收費:
sumserver監控軟件(www.zhetao.com) *
PRTG_Network_Monitor(Paessler 公司) *
主機(server、小型機)監控服(www.create-china.com.cn)*
網絡眼睛server監控系統
邁克菲SECURE技術 靈動server監控
OpManager(www.zohocorp.com.cn)*卓豪
聽雲基調檢測中心(rpc.networkbench.com)
深信服(SANGFOR)
數據中心監控系統對決:DCIM vs.BMS
數據中心業務管理系統(www.idcbms.com/Solutions.htm)
美信科技server和業務監控平臺(www.mxsoft.com)
超級監控(www.chaoji.com)
清竹server監控系統
Site24x7 server監控(www.site24x7.com/zhcn/index.html)
海思科server監控管理軟件(www.deskview.com.cn)
應用系統監控服務(www.longtelchina.com)
機房監控系統一體化解決方式(www.macrounion.com)*
分佈式數字監控平臺(www.csydxx.com)
web服務監控(5istudio)
融智興華
機房監控-機房環境監控系統-IDC機房集中監控(www.create-china.com.cn)
76server執行狀態監控系統
的IDC客戶管理系統(www.idccrm.cn)
Cyberoam安全產品(http://www.cyberoam.com/cn/productoverview.html)*
ChinaIDS非法信息系統(chinaids.net)
以及各個防火牆和安全軟件的附加監控系統(*)等
企業本身二次開發:很是多不一一列舉
不少其它:http://server.51cto.com/sCollege-299411.htm和http://www.hao352.com/webmonitor/
http://www.forxing.com/introduce/2.html
http://www.zhetao.com/list8
http://www.freesinno.com/g/products/index.html
http://www.mxsoft.com/
http://www.netistate.com/
http://www.suninfo.com/view-313.html
http://www.jiankongbao.com/ (監控寶產品新版) 360|百度雲測|阿里雲盾以及各類C/S端軟件程式
http://www.ruijie.com.cn/cp/riil-rj/smart
http://www.cissu.com.cn/brandview.asp?/36.html
http://www.betasoft.com.cn/
http://www.dhc-network.com/main-c1-173-c2-395-c3-401.html
http://www.techexcel.com.cn/solutions/servicewise/itmanage.html
http://www.bangzhutai.com/
http://www.01tech.com.cn/wug/
http://www.broada.com/view/product.php?func=detail&catalog=030201
http://fuyun.safedog.cn/
http://www.nstrong.com/product/ITMaster/chanpingaishu/
http://www.zhongdait.com/productsinfo.aspx?Col_ID=305&&col_menu=249
Hyperic HQ、Monitorix、Opennms和開源網管軟件。
1.http://developer.baidu.com/apm/
2.http://data.tsci.com.cn/News/HTM/20141104/1443115.htm
3.http://www.oneapm.com
4.http://network.51cto.com/art/201303/386554.htm
5.http://www.zohocorp.com.cn/manageengine/application-performance-management.html