OneAlert 是國內首個 SaaS 模式的雲告警平臺,集成國內外主流監控/支撐系統,實現一個平臺上集中處理全部 IT 事件,提高 IT 可靠性。有了 OneAlert,你能夠更快更合理地爲事件劃分優先級、分配路徑,從而極大地提升團隊的協做能力、優化協做流程。本文是 OneAlert 入門系列文章的第三篇,將幫助你快速瞭解和配置 OneAlert,從而挖掘該平臺的最大價值。html
你此前用過的大多數工單系統或問題追蹤系統都會要求你手動分類或聯結工單。OneAlert 可不同。OneAlert 事件流中的每一個事件都是自動建立的,且以監控棧中實時產生的告警爲基礎。Zabbix ,Nagios ,Solarwinds ,AWS CloudWatch ,阿里雲 ,監控寶,騰訊雲等國內外主流監控工具都能支持,並且新的應用正在快速集成。只要該工具會給 IT 和 DevOps(運維開發團隊)產生告警,咱們都會想辦法與之集成。OneAlert 除了能夠作一名合格的告警搬運工,還提供事件分析功能,目前包括總覽、告警 Top 分析、告警壓縮、應用,即將上線的還有面向 Team Leader 的團隊分析、成員分析、通知分析功能。ios
OneAlert 提供兩種 Top 分析,一種是根據告警內容產生告警的頻繁次數進行排名分析;一種是根據告警對象產生告警的頻繁次數進行排名分析。咱們能夠直觀的看到哪些事件發生故障的次數排名,這樣咱們能夠有針對的排除發生故障的緣由,預防下次還頻繁發生故障。咱們還能夠看相應告警的持續時間和 MTTA / MTTR,能夠查看團隊的工做效率,從而繼續優化團隊排班和升級策略。算法
生產環境中的一個問題可能致使多個告警。例如,一個磁盤問題可能會先致使磁盤 IO 告警。後者又極可能迅速觸發一些列的 CPU,內存,數據庫及應用告警。固然,在這種狀況下,你可不想分開管理二十多個問題。實際上,它們都是同一個緣由致使的。所以,OneAlert 會自動進行分組,將相關的告警整合爲高級事件。OneAlert 的分組算法會使用主機名、集羣和應用等信息,確保全部相關告警都分到同一組內。將來還會根據集羣、應用和團隊職責等進行分組。此外,算法還會考慮告警出現的時間順序,使你對事件的瞭解更加深刻。數據庫
以上事件分析功能主要面向運營團隊的一線人員,將來咱們將推出面向 Team Leader 的團隊分析、成員分析、通知分析功能。讓 Team Leader 能夠直觀看出團隊設置的排版和升級策略是否須要繼續優化,也能夠看出每一個人的確認告警的時間和解決故障的時間,查看整個團隊和成員的工做效率。更多功能敬請期待。運維
OneAlert 可以實時地自動整合告警,而且經過多鏈路多種通知方式讓告警最有效率的通知到相關人員,極大的縮短 MTTR,最後事件分析功能讓團隊價值最大化。這使 OneAlert 成爲國內 IT 與 DevOps 團隊管理並解決問題的最佳平臺。在第四部分,咱們會介紹如何在整個團隊中使用該工具,從而最大限度地提升協做效率。工具
本文轉自 OneAPM 官方博客優化