DevOps運維繫統:監控管理

ITIL 4的監控管理

在DevOps風行的當下,人們愈來愈關注自動化運維。其中,監控預告警、監控自愈愈加流行起來。在《DevOps實踐指南》和《持續交付 發佈可靠軟件的系統方法》兩本書中(DevOps的教科書級別),都有涉及講解監控管理和實施。其實,監控早不是什麼新概念,運維界不管在理論仍是工具中,一直在不斷探索。監控管理雖然在ITIL V2 中不曾提交,但在ITIL V3的《服務運營》中做爲運營活動來介紹,將監控相關的事件管理,做爲一個獨立的流程講解的。在ITIL 4中,監控管理和事件管理,共同組成了一個服務管理實踐(Practice)-"監控和事件管理實踐"。 ios

監控在ITIL 4中是如何講解的?
不少人熟悉各類監控工具,可是卻沒法從更高的流程層面來概括和解釋監控管理的活動。在這方面,咱們能夠看看ITIL 4的講解。
安全

1. 監控和事件管理密不可分。須要注意的是,這裏的「事件」並不等於「故障」。事件的含義是:

事件:對服務或其餘配置項(CI)的管理具備重要意義的任何狀態更改。服務器

ITIL 4中有專門講解「監控和事件」的管理實踐。該實踐的目的是系統地觀察服務和服務組件,並記錄和報告肯定爲事件的狀態變化。此實踐可識別基礎結構、服務、業務流程和信息安全事件並肯定其優先級,並創建對這些事件的適當響應,包括對可能致使潛在故障或事件的狀況做出響應。網絡

監控部分側重於服務和配置項(CI),以檢測潛在重要的條件,跟蹤和記錄服務程序和CI的狀態,並將此信息提供給相關人員。而事件管理實踐部分側重於那些被組織定義爲事件的狀態變化的監控,肯定它們的重要性,並識別和啓動對它們的正確響應。有關事件的信息也會被記錄、存儲並提供給相關人員。簡單來講,監控是來生產監控數據和信息的,而事件是來消費這些數據和信息,並制定相應的響應方案。框架

2. 監控和事件管理的主要流程:

監測和事件管理實踐活動造成三個過程:運維

●監控規劃過程:向監控中添加監控項的過程,定義監控項的優先級,選擇要監測的特徵,肯定事件分類的指標和閾值,將事件與負責的行動計劃和團隊對應起來。ide

●事件處理流程工具

●監控和事件管理審查:該流程是針對重大事件過後分析、篩選和關聯分析的更新、服務「健康模型」、自動化和可操做性監控的改進而計劃或觸發的審查流程。spa

具體活動見下圖:
DevOps運維繫統:監控管理
blog

3. 爲監控的輸出信息分級:

咱們須要注意的是,監控是事件管理所必需的,但並不是全部監控結果都會檢測到事件。閾值和其餘標準決定了哪些狀態更改將被視爲事件。一樣,須要注意的是,並不是全部事件都具備相同的重要性或須要相同的響應。咱們須要爲發生的事件類別定義分類標準。典型的類別,按照重要性的增長順序,是信息性事件、警告性事件和異常事件。

信息:不須要任何措施,也不表明異常狀況的事件,通常用於檢查設備或者服務的狀態,或者確認活動或任務完成。好比:設備成功接入網絡,交易成功完成等。

警告:當服務或者設備接近設定的閾值產生的事件,旨在通知相關的人員、流程或者工具,以便檢查這種狀況,並採起相應措施,以防發生異常狀況。例如:服務器的內存從65%持續升高到75%,服務器的響應時間長到使人沒法接受,將會違反OLA;網絡上的衝突率在過去一小時,提升了15%。

異常:服務或設備當前運行異常,違反了OLA或者SLA。須要注意,異常狀況不老是表現爲故障。好比,網絡中發現了未被受權的設備,這是異常狀況。根據故障和變動管理流程,這些異常能夠經過故障和變動進行處理。

咱們須要將事件按照預先定義的順序,匹配一系列標準和規則,也稱爲業務規則,用來判斷業務影響的級別和類型。根據業務規則,咱們還須要肯定觸發程序和響應措施。響應措施裏面能夠包括記錄事件、自動響應、告警和人工干預、故障、問題或者變動等,這些響應措施也產生了和其餘實踐(流程)的接口。

4. 和其餘實踐的接口:

如表2.1所示,如下活動與監控和事件管理密切相關。請記住,ITIL實踐只是價值流環境中使用的工具的集合,應該根據狀況在必要時進行組合。
DevOps運維繫統:監控管理


監控管理的落地

ITIL 4雖然講解了監控管理的框架,可是並無給出能夠落地的工具和實現方法,固然這也是ITIL 一如既往的風格。我在工做中接觸到的監控工具包括,Zabbix, Nagios, ELK+Grafana. 網上有不少介紹這些工具的文章,在此就贅述了。

相關文章
相關標籤/搜索