上了必定規模的企業裏,在IT運維管理方面通常都上線了相應的監控工具,例如:基礎系統監控、網絡監控、機房動環監控、應用性能監控、日誌監控等。可是可能每隔個1~2年,企業就會發現監控工具可能知足不了當下的需求了,又會進行新一輪的監控產品選型和引進的過程,以此循環往復。安全
如何監控?微信
從動環到硬件到軟件到應用到用戶,監控對象多且雜,如何一一覆蓋?
網絡
針對存量監控工具如何消化?
架構
監控工具之間的孤島要如何處理?
運維
如何告警?ide
告警太多,熟視無睹,如何沉澱有效告警?
工具
系統愈來愈大,運維成了摸象的盲人,怎樣看到監控全局?
性能
如何處理?雲計算
告警處理無記錄,和企業運維流程管理脫節,怎樣造成知識沉澱?
spa
告警處理純靠手動,每月都在徒手處理相同的故障,如何避免?
企業IT業務和技術發展太快,監控能力跟不上;
產品化監控建設思路,致使存在各類監控煙囪;
市場監控產品現狀和運維人對於監控認知的誤區;
如何解決呢?首先須要咱們認清如下3個關於企業IT監控治理的客觀現實:
企業IT監控治理的目的是爲了及時發現問題,解決問題,直至預測問題,不是爲了整合監控系統。
企業IT架構如今很複雜,將來更復雜,難以經過1~2個監控產品就解決全部的監控訴求;也不存在這樣的產品和廠商,必然各有所長。
新的業務、系統和場景催生新的監控需求(例如容器),企業將來監控必定是多種監控產品並存,構建功能可持續成長的監控平臺勢在必行
在認清監控治理的現實的基礎之上,須要實現監控建設的思路的轉變:由產品化思路向平臺化思路的轉變。
由要找一個大而全的監控產品,囊括所有的監控訴求……轉變爲須要一個具有功能生長性的監控平臺,來承載核心監控訴求,並能統一集成外部的各類監控產品,服務於業務監控的目標……。
構建功能可持續成長的監控平臺,關鍵在於監控平臺須要具有PaaS屬性:
監控iPaaS層
咱們稱之爲監控平臺層,負責提供面向各種監控對象的基本的監控採集、存儲、分析和告警的能力和工具;同時須要提供PaaS集成能力,可以對接和集成外部監控工具和系統
監控aPaaS層
咱們稱之爲監控場景工具層,經過調用平臺層的監控能力和監控工具,面向具體的應用和業務,提供組裝式的、複合的監控場景工具,例如:統一告警中心、監控可視化中心、故障自愈處理中心、轉工單處理等。
回到文章開頭的問題,基於監控平臺+監控場景的模式,咱們可以實現總體的監控平臺體系的創建:
如此,則可以實現:
各種IT對象的監控需求的覆蓋,而且可以經過集成方式有效利用存量的監控工具,實現監控數據之間的共享和融合;
經過告警中心結合CMDB數據,實現面向業務和應用的有效告警的沉澱,並做爲最終的告警輸出到外部的可視化系統、通知系統和工單系統等;
基於監控平臺與ITSM系統,實現有效告警的轉工單處理,實現告警處理的跟蹤和知識的沉澱;基於監控平臺與自動化工具的集成,實現常規告警的自動處理和故障恢復。
如此一來,基於平臺化監控體系,咱們就可以解決文章開頭部分的問題,實現:多采集源兼容、監控告警統一關聯處理、監控邏輯分層、監控對象靈活擴展、監控架構解耦,避免過往隔三差五重複建煙囪的企業IT監控建設模式,實現企業IT監控資源的有效整合,實現真正面向業務及應用的總體監控,重塑企業IT監控治理新格局。
做者:趙海兵
—文章回顧—