阿里云云棲號web
簡介: SRE技術保障平臺-盯屏中心TAC: 混合雲一站式告警運維平臺
1.目標定位
1.1背景api
- 告警管控平臺種類繁多
- 告警出現後未及時發現處理最終致使故障產生
- 專有云監控能力拉起依賴版本升級,操做複雜,迭代慢
- 異常問題和故障的感知力不如客戶
1.2目標微信
- 制定告警數據接入規範
- 實現告警統一集中展現
- 建設多種告警外發通知
- 獨立部署、快速迭代
- 告警嚴重程度區分,提高感知力
1.3定位運維
圖1:TAC定位ide
2.平臺簡介
2.1介紹工具
SRE技術保障平臺-盯屏中心(TAC-TAM Alarm Center)是TAM爲混合雲精心打造的一站式告警運維平臺,覆蓋混合雲所涉及的雲產品、大數據、雲實例以及用戶所涉及的站點應用等告警,提供告警生命週期管理以及報警外發等解決方案。幫助混合雲平臺快速發現、定位異常問題,協助產品團隊促進產品改進。大數據
2.2特色網站
2.2.1告警匯聚阿里雲
- 默認集成:雲平臺、大數據、雲實例、站點應用
- 支持擴展:自定義監控
2.2.2報警通道3d
2.3業務服務流程
圖2:TAC業務服務流程圖
3.主要功能及界面展現
3.1告警盯屏中心
- 實時展現雲平臺當前全部的告警數據以及列出近7天的產品告警TOP排行, 一目瞭然告警數據, 提高感知力。
圖3:告警盯屏中心界面展現
3.2SRE運維大盤
- 經過指標化,更方便查看產品的健康情況,判斷是否有故障;
- 指標項包含:健康率、成功率、轉實例、準時率、正常率、運行率、使用率、寫成功率、讀成功率。
圖4:SRE運維大盤界面展現
3.3告警工做臺
- 用戶能夠在平臺告警頁面上認領新增的待處理告警,線下處理完成後能夠在個人告警頁面上關閉該告警。
- 當認領了本身不擅長處理的產品告警,能夠經過線上轉發的方式移交給擅長處理的同窗。
- 若出現長期沒法處理的告警,在確認無影響的狀況下能夠選擇忽略該告警,避免一直外發形成消息轟炸。
- 自動恢復的告警無需手動認領關閉,在歷史告警中能夠進行查看。
圖5:告警工做臺界面展現
3.4事件服務中心
打破簽字、短信、郵件式古老的運維管理方式,爲客戶將衆多的線下流程移⾄線上,預設相應的管理體系,以線上提交、線上反饋的模式,能夠統一管理、追蹤閉環、數據存檔,爲⽇常流程管理工做提供更多解決⽅法,逐步代替線下管理。
圖6:事件服務中心界面展現
3.5告警控制策略
- 支持設置自動分派策略,當指定產品出現告警自動認領告警;
- 當天首次出現的告警當即通知,非首次出現的告警遵循1440分鐘的靜默期後通知;
- 支持控制告警發送時的狀態,「發生時」、「認領時」、「關閉時」;
- 支持預定在指定的時間範圍內使某一類型的告警進入靜默期,告警外發暫時失效;
- 支持對告警推送的告警類型,產品,級別,部門,項目等進行自定義配置。
圖7:告警控制策略界面展現
3.6告警推送策略
- 提供用戶體系,系統會識別用戶的手機號碼以及郵箱地址來發送告警;
- 提供釘釘、短信、郵件的外發的webhook,api接口的配置;
- 能夠選擇的一個或多個告警策略自定義配置推送告警
圖8:告警推送策略界面展現
3.7監控網關
- 支持在監控任務頁面配置用戶關心的網站、機器或某個接口,TAC根據規則進行監控;
- 若現場以前有提供過黑屏化的監控工具,用戶能夠在註冊API頁面註冊一個APP,根據接口調用規範將監控結果上報至TAC以第三方告警來展現和外發。
圖9:監控網關界面展現
3.8釘釘通知
圖10:釘釘通知效果展現
4.結語
目前,混合雲多數項目已經過TAC實現告警通知功能。有效提升告警處理效率,減小因告警未及時處理致使故障的狀況,大幅提升項目運維質量,減小項目人力投入成本。
阿里云云棲號
阿里雲官網內容平臺!匯聚阿里雲優質內容(入門、文檔、案例、最佳實踐、直播等)!如需轉載或內容類合做,郵件yqgroup@service.aliyun.com 秒級回覆!
阿里云云棲號
阿里雲官網內容平臺!匯聚阿里雲優質內容(入門、文檔、案例、最佳實踐、直播等)!如需轉載或內容類合做,郵件yqgroup@service.aliyun.com 秒級回覆!
宣傳欄
簡介: SRE技術保障平臺-盯屏中心TAC: 混合雲一站式告警運維平臺
1.目標定位
1.1背景
- 告警管控平臺種類繁多
- 告警出現後未及時發現處理最終致使故障產生
- 專有云監控能力拉起依賴版本升級,操做複雜,迭代慢
- 異常問題和故障的感知力不如客戶
1.2目標
- 制定告警數據接入規範
- 實現告警統一集中展現
- 建設多種告警外發通知
- 獨立部署、快速迭代
- 告警嚴重程度區分,提高感知力
1.3定位
圖1:TAC定位
2.平臺簡介
2.1介紹
SRE技術保障平臺-盯屏中心(TAC-TAM Alarm Center)是TAM爲混合雲精心打造的一站式告警運維平臺,覆蓋混合雲所涉及的雲產品、大數據、雲實例以及用戶所涉及的站點應用等告警,提供告警生命週期管理以及報警外發等解決方案。幫助混合雲平臺快速發現、定位異常問題,協助產品團隊促進產品改進。
2.2特色
2.2.1告警匯聚
- 默認集成:雲平臺、大數據、雲實例、站點應用
- 支持擴展:自定義監控
2.2.2報警通道
2.3業務服務流程
圖2:TAC業務服務流程圖
3.主要功能及界面展現
3.1告警盯屏中心
- 實時展現雲平臺當前全部的告警數據以及列出近7天的產品告警TOP排行, 一目瞭然告警數據, 提高感知力。
圖3:告警盯屏中心界面展現
3.2SRE運維大盤
- 經過指標化,更方便查看產品的健康情況,判斷是否有故障;
- 指標項包含:健康率、成功率、轉實例、準時率、正常率、運行率、使用率、寫成功率、讀成功率。
圖4:SRE運維大盤界面展現
3.3告警工做臺
- 用戶能夠在平臺告警頁面上認領新增的待處理告警,線下處理完成後能夠在個人告警頁面上關閉該告警。
- 當認領了本身不擅長處理的產品告警,能夠經過線上轉發的方式移交給擅長處理的同窗。
- 若出現長期沒法處理的告警,在確認無影響的狀況下能夠選擇忽略該告警,避免一直外發形成消息轟炸。
- 自動恢復的告警無需手動認領關閉,在歷史告警中能夠進行查看。
圖5:告警工做臺界面展現
3.4事件服務中心
打破簽字、短信、郵件式古老的運維管理方式,爲客戶將衆多的線下流程移⾄線上,預設相應的管理體系,以線上提交、線上反饋的模式,能夠統一管理、追蹤閉環、數據存檔,爲⽇常流程管理工做提供更多解決⽅法,逐步代替線下管理。
圖6:事件服務中心界面展現
3.5告警控制策略
- 支持設置自動分派策略,當指定產品出現告警自動認領告警;
- 當天首次出現的告警當即通知,非首次出現的告警遵循1440分鐘的靜默期後通知;
- 支持控制告警發送時的狀態,「發生時」、「認領時」、「關閉時」;
- 支持預定在指定的時間範圍內使某一類型的告警進入靜默期,告警外發暫時失效;
- 支持對告警推送的告警類型,產品,級別,部門,項目等進行自定義配置。
圖7:告警控制策略界面展現
3.6告警推送策略
- 提供用戶體系,系統會識別用戶的手機號碼以及郵箱地址來發送告警;
- 提供釘釘、短信、郵件的外發的webhook,api接口的配置;
- 能夠選擇的一個或多個告警策略自定義配置推送告警
圖8:告警推送策略界面展現
3.7監控網關
- 支持在監控任務頁面配置用戶關心的網站、機器或某個接口,TAC根據規則進行監控;
- 若現場以前有提供過黑屏化的監控工具,用戶能夠在註冊API頁面註冊一個APP,根據接口調用規範將監控結果上報至TAC以第三方告警來展現和外發。
圖9:監控網關界面展現
3.8釘釘通知
圖10:釘釘通知效果展現
4.結語
目前,混合雲多數項目已經過TAC實現告警通知功能。有效提升告警處理效率,減小因告警未及時處理致使故障的狀況,大幅提升項目運維質量,減小項目人力投入成本。