怎樣建立合適的告警處理流程?

咱們都知道監控對確保網站和應用的平穩運行是多麼重要,但這只是一個方面。一旦發現錯誤,監控軟件發出了告警消息你該怎麼作?如何決定下一步採起什麼措施?微信

一個合理的告警流程能夠幫助你優先處理最重要的問題,而且避免讓問題打擾到不在職責範圍內的無關人員。更普遍地說,它使得每一個人都清楚地知道本身應該解決什麼問題。架構

##怎樣建立合適的告警處理流程?運維

建立一個合適的告警處理流程可能會比較棘手,這個過程須要本身去摸索。適合你的規則可能不適合另外一個團隊——即便是相同規模的團隊或者處於同一行業的團隊。工具

如何建立合適的處理流程,取決於你的團隊,項目類別、項目的基礎架構,團隊的組織架構和使用的工具。那麼你應該從哪裏開始呢?網站

根據經驗,建立升級過程須要考慮如下3件事情:對象

  1. 嚴重程度等級結構
  2. 團隊的組織結構
  3. 閾值及其相應的通知渠道

顯然,具備較高嚴重性的錯誤天然須要更可靠的通知渠道。例如,你可能會選擇使用 OneAlert 爲高嚴重性錯誤發送短信或者打電話,而被認爲低嚴重性的錯誤則不會觸發告警,以減小噪聲。做爲替代,你能夠爲其選擇郵件、微信通知。事件

####1. 嚴重性等級結構開發

設置嚴重性等級結構的最簡單方法是根據商業價值來肯定網站或應用的最關鍵部分。 例如,一家網店的的最關鍵部分就是它的產品目錄和結帳功能。這些功能若是中止工做將會致使網店業務受到嚴重影響。所以,這些問題應排在其餘問題以前優先考慮。get

下面是筆者發現的建立嚴重性等級結構的好方法:博客

  1. 分析告警歷史,找出任何可能應該定級爲很是規嚴重等級的常見問題(好比,假超時可能應標記爲低嚴重性,儘管在其餘更高的層級中,超時應歸類爲高嚴重性)
  2. 決定衡量的級別(例如,低、中、高)。你能夠添加更多的級別,這取決於項目和團隊的規模。
  3. 一旦完成分析步驟,估計每一個功能或的內容對象的嚴重性程度,以及在告警歷史中發現的任何常常性錯誤。

誠然,並無所謂的正確或錯誤的方式來斷定嚴重性等級。要知道,重要的是瞭解團隊如何劃分具體的事件,並確保每一個人都達成共識。OneAlert 的告警分析功能,可以針對一段時間內的告警進行不一樣維度的分析,幫助運維團隊快速作出最佳決策。

####2. 團隊結構

接下來,你應該瞭解本身的團隊結構。

清晰地認識團隊結構並使問題傳達自動化,將幫助你定義更高效的通訊流。例如,負責生產環境的一線團隊成員應當即獲得問題通知,若是一線成員在設定時間內沒解決告警問題,就會升級到二線成員,升級事件的嚴重性。在這個過程當中,能夠將重要的告警同時分派給正確的人,好比:項目經理只需知道關鍵問題,以便了解潛在的大問題。

怎樣建立合適的告警處理流程?

明確團隊的組織結構,對問題處理的平均時間是很是關鍵的。

你必須考慮下面三點:

  • 告警流程須要涉及哪些人?
  • 修復問題時,每一個人的責任是什麼?
  • 警報要求在哪一點上將這個角色帶入到通訊迴路中?

####3. 通訊結構 若是你不知道告警在團隊結構內應該如何流通,創建通訊結構將是建立嚴重性等級過程當中最爲困難的一環。

你能夠這樣考慮:

  • 嚴重性等級結構:這個問題有多嚴重?
  • 團隊結構:這是誰的責任?
  • 通訊結構:若是問題發生,如何以及什麼時候聯繫團隊成員?

嚴重性等級的主要目的是確保合適的人員可以知道問題,並按照嚴重程度處理問題。建立通訊結構能將不一樣級別的嚴重性等級與團隊中的不一樣角色聯繫起來,並根據時間緊迫度與錯誤頻率添加更明確的操做。這樣,能夠確保經過恰當的渠道聯繫到合適的人員,且符合當前的狀況。若是一個響應者不在線上,可經過告警升級機制確保團隊中的其餘成員獲得通知。

根據團隊結構,選擇合適的通知渠道與閾值配置,意味着問題解決更加高效,且不會牽涉到無關人員。

例如,網站發生了緊急事件,網站管理員會立刻接到電話,與此同時,負責該功能的開發人員也將收到短信通知。若是問題沒有在10分鐘內獲得解決,團隊經理也會接到電話通知。

怎樣建立合適的告警處理流程?

與之造成對比的是,簡單的警告只能保證給團隊管理者及相關開發人員發送郵件或者微信。

OneAlert 中,你能夠經過告警分析功能輔助你來判斷告警級別的嚴重性,而後將不一樣級別的告警,發給對應的成員,並選擇合理方式進行通知。也能夠經過不一樣的主機組進行告警的分派,讓正確的成員處理正確的告警問題。但願這篇文章對你有所幫助!也歡迎你分享本身使用的嚴重性告警流程。

OneAlert 是北京藍海訊通科技有限公司旗下產品,中國首個 SaaS 模式的雲告警平臺,集成國內外主流監控/支撐系統,實現一個平臺上集中處理全部IT事件,提高IT可靠性。想了解更多信息,請訪問 OneAlert 官網 本文轉自 OneAPM 官方博客

相關文章
相關標籤/搜索