互聯網時代 IT 相關的衍生產品有不少,監控工具爲其中的佼佼者。不少監控工具對於確保網站和應用的平穩運行作了很是多的工做,可是,對於告警產生到通知用戶的過程,還有很大的改進空間。運維
在合理評估告警嚴重程度的基礎上,確保通知合適的運維汪,對於快速有效解決事件相當重要。可是咱們對告警等級的重要性以及如何設置告警等級來提升團隊效率,還缺乏必要的認識。針對該問題,如下幾條快速指南能夠供你們參考。工具
##什麼是告警等級?有什麼重要性?性能
簡單來講,告警等級是表徵事件嚴重性的指標之一,取決於事件對用戶體驗以及網站或應用總體性能形成的負面影響的大小。網站
例如,致使網站崩潰的事件,被認爲負面影響極大,告警等級也就較高;而一個Ping的問題有時不會很明顯,被認爲負面影響略小,告警等級也就較低。事件
告警等級的重要性體如今如下方面:開發
總而言之,根據告警等級不一樣,能夠優先處理重要事件,避免干擾到不在職責範圍內的無關人員。get
##怎樣建立合適的團隊告警等級規則?博客
肯定告警等級的重要性,相信你們已經瞭解了,但如何建立一個適合整個團隊事件嚴重程度的評估方法,是監控工具開發人員的棘手問題。產品
通常來講,評估告警等級過程需考慮如下3個方面:it
1.嚴重性等級結構 2.團隊結構 3.通訊結構
1)嚴重性等級結構
嚴重性等級的主要目的是確保合適的人員可以知道問題,並按照嚴重程度來處理問題。通常來講,設置嚴重程度等級結構的最簡單方法是根據商業價值來肯定網站或應用的最關鍵部分。而且在團隊中,並無所謂的正確或錯誤的方式來斷定嚴重性等級。要知道,重要的是瞭解團隊如何劃分具體的事件,並確保每一個人都達成共識。
2)團隊結構
清晰地認識團隊結構並對告警進行有序分派,將提升整個團隊的執行效率。爲了更有序和有效的分派告警,咱們應該注意幾個問題:
3)通訊結構
若是你不知道告警在團隊結構內應該如何通訊,那麼創建通訊結構將是建立嚴重性等級過程當中最爲困難的一環。
你能夠這樣考慮:
建立通訊結構能將不一樣事件與團隊中的不一樣角色聯繫起來,並根據時間緊迫度與錯誤頻率添加更明確的操做。這樣,能夠確保經過恰當的渠道聯繫到合適的人員,且符合當前的狀況。若是一個響應者不在線上,可經過告警升級機制確保團隊中的其餘成員獲得通知。
根據團隊結構,選擇合適的通知渠道與閾值配置,意味着問題解決能更加高效,且不會牽涉到無關人員。如 OneAlert 雲告警平臺容許成員自行設置通知方式與閾值配置,以下圖所示,若是告警在30分鐘(用戶自行設置)後,一線成員無響應,將自動升級爲通知二級成員。用戶能夠根據團隊結構的不一樣,設置不一樣層次的通知策略。
但願這篇文章對你有所幫助!
OneAlert 是應用性能管理領軍企業 OneAPM 公司旗下產品,也是國內首個 SaaS 模式的雲告警平臺,集成國內外主流監控/支撐系統,實現一個平臺上集中處理全部 IT 事件,提高 IT 可靠性。想了解更多信息,請訪問 OneAlert 官網 。 本文轉自 OneAPM 官方博客