「路漫漫其修遠兮,吾將上下而求索」,「轉身」不見得華麗,但我必須「轉身」,不要安逸於如今的運維情況。服務器
若是你運維一線人員,是否會遇到如下狀況:微信
公司全部的服務器告警消息會塞滿本身的整個郵箱,若是公司的運維團隊有幾我的到幾十人不等,當你處理郵箱中的告警消息的時候,處理一半會發現問題已經解決了,這個現象很常見,會致使工做效率的降低。改善的方法有不少,好比團隊內部多一些溝通,然而溝通的成本也是很是高的。解決問題應該從源頭出發,治標不治本的方法仍是應該適當採起。也許你在創業團隊工做,團隊中只有一我的,可是也但願你能讀完本篇文章,等團隊壯大以後也會有幫助!運維
單一的告警通知方式會麻木運維同窗的工做思惟,一天 24 小時接收的都是郵件或者短信的告警通知。咱們更但願白天工做時間使用郵件、微信、APP 等輕量級的通知方式,晚上休息時間使用短信、電話等偏重的通知方式。這樣不只白天可以提升工做效率,並且可以晚上好好休息,不用擔憂告警疏漏。若是能有排班通知,那麼就真正能「睡個好覺」了。 若是你是運維 Team Leader,是否會遇到如下狀況:工具
若是你是團隊的管理人員,是否會遇到如下狀況:性能
團隊一直在解決故障,但對系統性能沒有總體的把握;你對團隊、成員的工做量,工做效率沒有全面的瞭解。你確定不但願這樣管理你的團隊,不但願團隊重複解決某些事情,更不但願由於這些問題讓團隊士氣低落,以爲工做沒有幹勁。事件
團隊一直在重複解決某一故障,可是卻由於缺乏一個好的分析工具,致使無用功重複執行。好比常常收到「127.0.0.1」服務器內存使用率超過90%,嚴重級別高’的告警消息,經過對告警消息分析,此告警消息在本月出現頻率最高,此時是否可以根據此告警對服務器作出一些硬件上的調整來減小告警的噪聲?內存
解決以上可能出現的問題,你須要:資源
合適通知體系get
合理的通知方式博客
健全的告警分析機制
合適的通知體系 ------- 你的鍋你來背
根據不一樣的主機組把告警發給不一樣的一線成員,可有效解決告警分派的問題,而且可以使團隊責任劃分清晰。每一個人負責一部分服務器,出現問題以後,告警消息只會通知本身,避免對其餘同事的工做形成干擾。那若是這位同事遺漏了告警怎麼辦?告警消息不被團隊的其餘人知曉,解決時間會存在嚴重的問題。這時須要一個有效的升級機制,告警在設置時間內不確認、不解決的時候,會升級到二線值班人員,二線通常都是領導級別的了,若是告警真的升級了,那你就…………。因此在第一時間接收到告警消息,第一時間解決掉是很是關鍵的,這時咱們就須要有多種通知方式,合理的通知方式。
合理的通知方式 ------- 對的時間趕上對的人
不要在錯的時間趕上對的人。 當告警消息來了,選擇一個好的通知方式是相當重要的。好比白天工做時間,告警消息的推送只須要經過微信、郵件的方式。而晚上下班時間休息時間,告警消息推送能夠選擇短信和電話兩種方式進行通知,靈活的通知方式可以達到事半功倍的效果。告警通知很及時,那怎麼衡量團隊的工做效率、我的的工做效率呢?根據什麼標準來衡量呢?這時有一個健全告警分析機制是很關鍵的。
健全的告警分析體系 ------- 真正認識你的團隊
好的告警分析機制可以幫助管理者分析團隊總體的工做狀況,根據 MTTR 做爲評判標準。經過告警分析可以分析出某一告警應用某段時間內處理狀況。
根據告警內容分析也是頗有必要的,可以幫助團隊管理者對資源進行適當的調整,工做重心的調整。
固然對團隊成員的工做進行分析也是很是有必要的,OneAlert 對成員處理告警的分析即將上線。
健全的告警分析是一個運維管理團隊必須的,咱們可以在其中發現不少的團隊問題,而後進行適當的調整,把團隊的總體 KPI 提升,士氣提升!但願本篇文章可以對你有用。
OneAlert 是北京藍海訊通科技有限公司旗下產品,中國首個 SaaS 模式的雲告警平臺,集成國內外主流監控/支撐系統,實現一個平臺上集中處理全部IT事件,提高IT可靠性。想了解更多信息,請訪問 OneAlert 官網 。 本文轉自 OneAPM 官方博客