Moogsoft 的員工 Steve Burton 曾分享過一個很是極端但很多見的事例:有個服務提供商 4 萬臺服務器每小時生成超過 60 萬個事件,並且其中有 4.7 萬張幫助工單,每個月有 2000 次以上的二級升級。也就是說,天天都有 66 次升級,不過這還不是最糟糕的。最糟的是,這 4.7 萬張幫助工單須由幾百號人進行手動分析、排列優先級以及分類。ios
#####現階段事件管理現狀算法
目前,IT運營中的事件管理 ( Event management ) 是手動的、勞動密集型的(所以成本高昂)活動,難以擴展。企業每一年要在事件風暴管理上花掉 7000 萬 rmb 以上,以期能在生產業務受到衝擊以前發現異常現象和意外事件。服務器
過去,事件數量相對較小且變化幅度不大,企業一般採用 IBM Netcool 或 CA Spectrum 等傳統管理系統進行事件管理。IT 運營團隊會制定並維護一些基本規則和篩選方法,從而聚合事件或使事件關聯(例如,若事件 A 和事件 B 同時發生,則將兩個事件合併以建立事件 C )。在 IT 運營僅需處理幾百個熟知的事件時,這種事件管理形式是可行的。不幸的是,現在的 IT 運營團隊面臨的是幾百萬個事件,沒有一我的能足夠迅速地制定規則或篩選方法來處理這些龐大的事件。這就解釋了爲何現在 IT 運營很是重視機器學習和數據科學,以及 LZ 在 Steve Burton 對事件管理問題的兩種解決方法進行對比的基礎上進行整理的理由。網絡
#####事件風暴及傳統解決辦法機器學習
下圖爲事件簡圖,展現了典型的一級或企業監控團隊可能遇到的狀況。此圖展現了多種事件源工具,幷包含在同一天內由各類事件源工具引發的事件。工具
大多數企業會用一級運營團隊手動逐個分析上面 93 個事件,併爲重要的或反常的事件建立工單。學習
######該方法需面臨的挑戰:優化
#####事件聚合事件
解決上述問題的一種途徑是將一級運營團隊須要完成的事件分析部分自動化。OneAlert 等供應商經過事件聚合完成這一工做,即經過事件源(如 Nagios)將事件告警整合起來,並利用主機 ID 和時間等元素減小事件、進行事件歸類並以單個事件的形式呈現多種事件。get
例如,經過事件風暴示例可見,事件聚合可用於減小這 93 個不一樣的事件,並將其分類爲 15 個單獨事件。
這樣就再也不須要一級運營團隊分析 93 個不一樣告警,只需分析 15 個事件,工做量下降了84%。
######事件聚合的優勢:
######事件聚合遇到的挑戰:
#####事件關聯
另外一種事件管理方法就是,使用機器學習算法(如 Moogsoft )減小並關聯不一樣事件源的事件。具體方法爲:語彙單元化、分析各事件中的天然語言,並尋找各類相關屬性、模式以及可推斷的異常狀況。例如,採用拓撲算法驗證事件的相關網絡鄰近性,此外還可將時間或語言算法用於語言類似度分析。
在同一事件風暴示例中能夠看出,經過事件關聯,可將這 93 個不一樣事件分組爲 2 個單獨事件:
這樣就再也不須要一級運營團隊逐個分析 93 個不一樣警告,僅需分析兩個事件,工做量減小了 98%。
######事件關聯的優勢:
######事件關聯中的挑戰:
如今你應該明白,現在的事件管理對於企業和服務供應商來講仍然存在很大的問題,每一年幾乎都要耗費他們幾千萬 rmb 的勞務費用。儘管 IT 運營團隊能使用軟件進行事件聚合和關聯,可是兩種方式也都各有利弊。
對你來講最管用的方法是什麼呢?
OneAlert 是北京藍海訊通科技有限公司旗下產品,是國內第一個 SaaS 模式的雲告警平臺,集成國內外主流監控/支撐系統,實現一個平臺上集中處理全部 IT 事件,提高 IT 可靠性。想了解更多信息,請訪問 OneAlert 官網,歡迎免費註冊體驗 。
本文轉自 OneAPM 官方博客