【編者按】本文做者爲 Maria Arbisman,主要介紹 Google 與 Facebook 兩大巨頭是如何大規模處理 IT 事件管理。文章系國內 ITOM 管理平臺 OneAPM 編譯呈現。html
2016 年舉辦的可靠性工程師學會大會 (SREcon 2016) 匯聚了來自全球各地的多家企業,探討企業在繼續擴展業務的同時其網站可靠性工程師所面臨的各類問題,包括「究竟什麼才能成就強大的 SRE 團隊」這樣的準生存問題。彷佛不少公司都會把精幹的軟件工程師和運營人才拼湊在一塊兒,以此確保網站可靠性工程職能。但不管怎樣精心組織這些團隊,他們都是在努力讓過去一直依賴於人力的過程自動化。這些過程一般圍繞性能、可用性、效率、監測、事件管理、延遲和可靠性。架構
全球頂尖企業的發言人向與會者介紹了最佳實踐,也坦率地探討了其方法的一些侷限性。我發現兩個討論組特別有意思(我剛寫完一篇有關根源分析進化論的文章),這兩個討論組的主角是當今最最成功的兩家企業:Google 和 Facebook。如下內容就是我對這兩家企業如何應對 IT 事件管理的重要領悟。app
##Facebook 深刻探討的問題是:「人類應當留意哪些 IT 告警?」 Facebook 的產品工程師 Brian Smith 首先向咱們介紹了 Facebook 用來肯定 IT 事件應否入人類法眼(這一過程被稱爲 SAR,即信號、可行動性和關聯性)的準則的初步定義。ide
信號 — 這是誤報嗎?必定是信號不足!工具
可行動性 — 收到這一告警時,能當即採起措施嗎?性能
關聯性 — 收到這一告警時,有其餘告警傳達相同內容或重疊嗎?若是是,請刪除其中一個告警。優化
Smith 表示,使用 SAR 方法並在每一個棧區只持續關注一個告警,就能提升可行動性和關聯性。他解釋道,Facebook 利用這一方法消除了 97% 的告警,從而減小了天天收到的噪音,也提升了整體運營效率。網站
##Google 的問題是「在 IT 事件管理中,哪一個指標最爲重要?」 Google 的項目經理 Sue Lueder 要求她的團隊在過後分析中採用一種標記系統,這有助於精準地指出他們認爲在優化 IT 事件管理時最重要的五大關鍵字段:google
開始時間rest
結束時間
檢測時間
鑑別分流時間
肯定根源時間
Google 利用這一系統,結合一份包括僥倖脫險和級聯故障的嚴重程度量表,來肯定後期告警的閾值,不斷要求其團隊選擇「若是這一事件再次發生,你是否願意接受」。
##Facebook 和 Google 的 IT 事件管理法適用於你的企業嗎? 從過後標記到肯定可執行的告警,這兩家科技巨頭(L2 公司創始人 Scott Galloway 戲稱 Facebook 和 Google 爲數字大動亂的天啓四騎士之二)費盡心血,只爲完善他們的事件管理例程,讓全部成功進化的小規模事件管理能在其企業內獲得充分利用。
但不是每家企業都能像 Facebook 和 Google 這樣。對其餘企業來講,解決方案用過即棄、使用過多操做人員或建立大量並行的數據中心這些方法徹底行不通。
若是你真的按照這些方法來,最後仍是不能實時探測新問題和消除虛假告警。對於擴展操做,正確的方法是藉助計算機來運行這些企業中目前由人類來管理的事務。經過這一轉變,機器可以進行持續的分析,而解決問題仍然依靠人類,只要勇於創新,就能取得更豐碩的業務成果。
若是產品環境規模較小,或者須要應付和單一根源掛鉤的事件時,Facebook 的方法會是個很好的選擇。惋惜的是,現代企業的產品環境每每較大,要應付的事件也相對複雜,因此若是每一個棧區丟棄全部告警只保留一個,會有極大風險,這是由於事件告警風暴每每有多個原由(Forrester 公司的一份報告進一步佐證了這一結論,該報告指出,有 74% 的 IT 事件不是由 IT 部門而是由其餘人員彙報的,而這些其餘人員甚至包括最終用戶 — 這可不太樂觀)。
相反,若是解決方案不只能挑選出數據中的異常現象和常規模式,進而顯示整個基礎架構內多個告警之間的緊密聯繫,還能洞察你曾經遇到的各類問題,那麼你的總體服務質量就能獲得提高,這是由於把數據放在上下文中來考慮並理解這些指標背後的事態發展,會讓響應更有效更及時。
增長實時分析解決方案也能夠進一步提升 Google 系統的效率,由於這一解決方案能夠改進 Google 的過程,讓操做人員解決問題花費的全部時間以及所需的全部關鍵指標都得以實時存儲並按照具體「狀況」(「狀況」由一組相關聯的或「集羣的」事件來定義)編入目錄,從而瞬間生成其五大關鍵字段分析,而無需返回、檢查、在過後分析過程當中給全部內容所標記。咱們知道,過後分析過程成本高昂,尤爲是在沒有可動態捕捉取證活動的工具時。
除了這些關鍵字段以外,咱們認爲,若是能增長診斷步驟和關鍵解析行動指標來比對事件集羣(「狀況」)之間的類似性,也是很是有益的,這不只縮短了平均檢測時間,也能利用歷史數據來幫助指引後期響應,從而加快解決問題的步伐。
咱們堅信,將來,事件數據分析必須在事件發生時就要集中精力實時處理數據。不過,使用自適應式事件管理模式的企業也應該廣開門路,積極下降運營成本,把人類解放出來,讓他們去作最拿手的工做:創新。
本文系 OneAPM 工程師編譯整理。OneAlert 是 OneAPM 旗下產品,是國內第一個 SaaS 模式的雲告警平臺,集成國內外主流監控/支撐系統,實現一個平臺上集中處理全部 IT 事件,提高 IT 可靠性。想閱讀更多技術文章,請訪問 OneAPM 官方技術博客。
本文轉自 OneAPM 官方博客