運維工程師如何作好告警分析與彙報?

智能告警平臺(Cloud Alert) CA,能快速接入各種告警信息,經過自動去重、規則壓縮、算法降噪,實現告警降噪,幫助IT運維團隊減小告警,避免告警風暴;同時經過分派、排班、通知等功能,快速實現告警流程化管理,幫助運維團隊更快響應告警,恢復告警,提高告警管理能力。算法

CA提供多維度報表幫助您快速分析告警、成員工做效率,概覽系統運行情況。支持自定義時間段,回溯分析歷史系統情況。數據庫

關鍵指標分析網絡

事件量: 原始告警量運維

· 主告警量: 自動去重、規則壓縮後告警量優化

· 壓縮比: 壓縮比計算公式:(1 - 主告警量/事件量) * 100%spa

· MTTA: 告警平均響應or認領時長操作系統

· MTTR: 告警平均恢復or關閉時長3d

事件壓縮分析blog

· 按天統計事件量、全部告警、主告警量隨時間變化趨勢排序

· 點擊右上角 more 按鈕,可下鑽查看更多分析,若回溯分析時間跨度過長,還能夠按月維度統計事件量、主告警量、全部告警量

應用分析&關閉分析

· 應用分析: 統計查詢時間週期內,不一樣應用的告警數量;

· 關閉分析: 統計經過外部系統關閉、超時自動關閉、手動關閉三種方式關閉對應不一樣應用的關閉告警數量;

· 應用分析中點擊右上角 more 按鈕,可下鑽選擇不一樣應用按天查看告警

告警級別&狀態分析

· 統計查詢時間週期內,不一樣級別(提醒、警告、嚴重)佔比,及告警當前處理狀態(待認領、處理中、已關閉)。

· 支持聯動查詢:全部嚴重級別告警,當前處理狀態分別是什麼。

· 點擊右上角 more 按鈕,可下鑽查看全部告警詳單。

成員分析

· 統計查詢時間週期內,團隊全部成員的告警處理效率:被分派告警量、認領告警量、關閉告警量、MTTA、MTTR。

· 支持下鑽查看每一個成員被分派的告警詳單。

 

告警智能分類分析

· CA內置分類算法,基於告警全文本分析,自動標註告警分類。

· 提供本週期與上週期對比分析,快速定位不一樣分類告警數量差別及變化狀況。

· 分類類型內置,無需自定義,目前支持12種分類:網絡狀態、硬件處理器、硬件內存、操做系統、磁盤、WEB應用、信號檢測、數據庫、基礎組件、應用監控、容器、其餘等。分類算法還在持續迭代優化中,敬情期待。

 

Top告警內容分析

· 統計查詢時間週期內,不一樣告警內容的發生頻率並進行排序,快速定位頻繁發生的告警。

· 對於頻繁發生的告警,需分析是否須要統一完全解決,或者是否須要調整監控平臺的告警閾值等。

· 對於不頻繁發生的告警,更須要額外警戒,每每不常常發生的告警,致使的問題更嚴重,定位根因更久,修復耗時更長。

 

新奇事件TOP10

· 今日新奇事件TOP10:相較於昨天,今日新發生的事件;

· 本週新奇事件TOP10:相較於上週,本週新發生的事件。

 

更多功能歡迎訪問睿象雲官網進行體驗~

相關文章
相關標籤/搜索