各位小夥伴,近期技術文感受發的有點多,不知是否給你們在工做中解決實際問題帶來了一些靈感。爲何這麼說呢?由於正是文章中涉及的細小知識點聚沙成塔,讓我從零碎繁忙的運維工做中獲得了必定程度的解放。相信認真讀過的小夥伴,必定會以爲工做中並不是只有什麼高大上的技術才能解決痛點,偏偏相反,正是那些咱們平時忽視的細節纔是問題的要害。那麼只有切中要害,咱們才能對症下藥。markdown
所以接下來一段時間,我可能會陸續分享運維過程當中對一些問題的思考,但願給你們帶來必定的啓發。架構
本次分享的是確立一套運維監控體系,構建可持續成長的監控平臺。運維
硬件、基礎狀態、應用、業務,監控對象多並且雜,如何可以所有覆蓋? 企業內部的各類監控工具,咱們應該如何管理? 監控工具之間的信息孤島如何處理?工具
告警太多,如何沉澱有效告警? 告警氾濫,如何進行收斂,避免告警的狂轟濫炸?佈局
告警處理無記錄,和企業運維流程脫節,怎樣造成知識沉澱?-----所謂的知識庫,線下整理不及時,增長工做負擔。spa
告警處理純靠手動,每月都在重複處理相同故障,如何避免?-----手動處理效率不高,牽扯太多的精力。日誌
以上問題是在建設監控系統時面臨的一些問題,之前我老是想用一個監控產品來實現全部的需求,避免咱們在多個產品間來回切換,看來有點捨本逐末。code
首先,咱們先從監控的本質出發:監控系統的目的是爲了及時發現問題,解決問題,直至預測問題,不是爲了整合系統。orm
其次,隨着公司技術棧的不斷升級,業務系統的架構也在不斷演進,而原來傳統監控可能就不可以知足監控需求。此時就須要不斷補充監控手段,例如Grafana、Prometheus、ELK,實現圖形化監控、容器監控、日誌監控。所以監控平臺必定是多種監控產品並存,而運維須要構建可持續成長的監控平臺。對象
最後,在認清以上監控治理的現狀後,咱們須要實現監控建設的思路轉變:由產品化思路向平臺化思路轉變。即:由要找一個大而全的監控產品,囊括所有的監控訴求轉變爲須要一個具有功能生長性的監控平臺,來承載核心監控訴求,並能統一集成外部的各類監控產品,服務於業務監控的目標。
構建功能可持續成長的監控平臺,關鍵在於監控平臺須要具有paas屬性:
監控平臺層,負責提供面向各種監控對象的基本的監控採集、存儲、分析和告警的能力和工具;同時須要提供paas集成能力,可以對接和集成外部監控工具和系統。
監控場景工具層,經過調用平臺層的監控能力和監控工具,面向具體的應用和業務,提供組裝式的、複合的監控場景工具,例如:統一告警中心、監控可視化、故障自愈等。
總結大致佈局以下:
從這套監控架構來看,相信不少小夥伴都已經實現到了iPaaS(監控平臺層)級別的監控,每每忽視了aPaaS(監控場景層)的多樣性需求,如統一告警中心、故障自愈等的需求。而咱們創建監控系統就是經過場景去發現問題、解決問題、甚至是預測問題。
雖然以上統一監控完成了監控由產品到平臺的轉變,也一樣存在如下優缺點:
看到這,小夥伴會想:爲何問題都是會不期而至呢?由於這些就是咱們平時會忽略的細節問題。若是咱們能集中資源從細節入手,那麼咱們可能就會獲得意想不到的收穫!
瞭解過藍鯨的小夥伴,可能對以上內容比較熟悉,但重點是咱們如何站在巨人的肩膀上來看清咱們的不足,從什麼角度去思考問題。
以上的平臺化監控架構能夠爲咱們構建系統監控體系提供了思路,剩下的就是咱們如何從細節性問題入手,利用技術手段去解決問題了。