SRE技術保障平臺-盯屏中心TAC: 混合雲一站式告警運維平臺


阿里云云棲號web

簡介: SRE技術保障平臺-盯屏中心TAC: 混合雲一站式告警運維平臺
1.目標定位

1.1背景api

  • 告警管控平臺種類繁多
  • 告警出現後未及時發現處理最終致使故障產生
  • 專有云監控能力拉起依賴版本升級,操做複雜,迭代慢
  • 異常問題和故障的感知力不如客戶

1.2目標微信

  • 制定告警數據接入規範
  • 實現告警統一集中展現
  • 建設多種告警外發通知
  • 獨立部署、快速迭代
  • 告警嚴重程度區分,提高感知力

1.3定位運維

圖1:TAC定位ide

2.平臺簡介

2.1介紹工具

SRE技術保障平臺-盯屏中心(TAC-TAM Alarm Center)是TAM爲混合雲精心打造的一站式告警運維平臺,覆蓋混合雲所涉及的雲產品、大數據、雲實例以及用戶所涉及的站點應用等告警,提供告警生命週期管理以及報警外發等解決方案。幫助混合雲平臺快速發現、定位異常問題,協助產品團隊促進產品改進。大數據

2.2特色網站

2.2.1告警匯聚阿里雲

  • 默認集成:雲平臺、大數據、雲實例、站點應用
  • 支持擴展:自定義監控

2.2.2報警通道3d

  • 釘釘&本地化釘釘
  • 短信服務
  • 企業郵箱
  • 警務微信

2.3業務服務流程

圖2:TAC業務服務流程圖

3.主要功能及界面展現

3.1告警盯屏中心

  • 實時展現雲平臺當前全部的告警數據以及列出近7天的產品告警TOP排行, 一目瞭然告警數據, 提高感知力。

圖3:告警盯屏中心界面展現

3.2SRE運維大盤

  • 經過指標化,更方便查看產品的健康情況,判斷是否有故障;
  • 指標項包含:健康率、成功率、轉實例、準時率、正常率、運行率、使用率、寫成功率、讀成功率。

圖4:SRE運維大盤界面展現

3.3告警工做臺

  • 用戶能夠在平臺告警頁面上認領新增的待處理告警,線下處理完成後能夠在個人告警頁面上關閉該告警。
  • 當認領了本身不擅長處理的產品告警,能夠經過線上轉發的方式移交給擅長處理的同窗。
  • 若出現長期沒法處理的告警,在確認無影響的狀況下能夠選擇忽略該告警,避免一直外發形成消息轟炸。
  • 自動恢復的告警無需手動認領關閉,在歷史告警中能夠進行查看。

圖5:告警工做臺界面展現

3.4事件服務中心

打破簽字、短信、郵件式古老的運維管理方式,爲客戶將衆多的線下流程移⾄線上,預設相應的管理體系,以線上提交、線上反饋的模式,能夠統一管理、追蹤閉環、數據存檔,爲⽇常流程管理工做提供更多解決⽅法,逐步代替線下管理。

圖6:事件服務中心界面展現

3.5告警控制策略

  • 支持設置自動分派策略,當指定產品出現告警自動認領告警;
  • 當天首次出現的告警當即通知,非首次出現的告警遵循1440分鐘的靜默期後通知;
  • 支持控制告警發送時的狀態,「發生時」、「認領時」、「關閉時」;
  • 支持預定在指定的時間範圍內使某一類型的告警進入靜默期,告警外發暫時失效;
  • 支持對告警推送的告警類型,產品,級別,部門,項目等進行自定義配置。

圖7:告警控制策略界面展現

3.6告警推送策略

  • 提供用戶體系,系統會識別用戶的手機號碼以及郵箱地址來發送告警;
  • 提供釘釘、短信、郵件的外發的webhook,api接口的配置;
  • 能夠選擇的一個或多個告警策略自定義配置推送告警

圖8:告警推送策略界面展現

3.7監控網關

  • 支持在監控任務頁面配置用戶關心的網站、機器或某個接口,TAC根據規則進行監控;
  • 若現場以前有提供過黑屏化的監控工具,用戶能夠在註冊API頁面註冊一個APP,根據接口調用規範將監控結果上報至TAC以第三方告警來展現和外發。

圖9:監控網關界面展現

3.8釘釘通知

圖10:釘釘通知效果展現

4.結語

目前,混合雲多數項目已經過TAC實現告警通知功能。有效提升告警處理效率,減小因告警未及時處理致使故障的狀況,大幅提升項目運維質量,減小項目人力投入成本。

阿里云云棲號

阿里雲官網內容平臺!匯聚阿里雲優質內容(入門、文檔、案例、最佳實踐、直播等)!如需轉載或內容類合做,郵件yqgroup@service.aliyun.com 秒級回覆!

阿里云云棲號

阿里雲官網內容平臺!匯聚阿里雲優質內容(入門、文檔、案例、最佳實踐、直播等)!如需轉載或內容類合做,郵件yqgroup@service.aliyun.com 秒級回覆!

宣傳欄

簡介: SRE技術保障平臺-盯屏中心TAC: 混合雲一站式告警運維平臺
1.目標定位

1.1背景

  • 告警管控平臺種類繁多
  • 告警出現後未及時發現處理最終致使故障產生
  • 專有云監控能力拉起依賴版本升級,操做複雜,迭代慢
  • 異常問題和故障的感知力不如客戶

1.2目標

  • 制定告警數據接入規範
  • 實現告警統一集中展現
  • 建設多種告警外發通知
  • 獨立部署、快速迭代
  • 告警嚴重程度區分,提高感知力

1.3定位

圖1:TAC定位

2.平臺簡介

2.1介紹

SRE技術保障平臺-盯屏中心(TAC-TAM Alarm Center)是TAM爲混合雲精心打造的一站式告警運維平臺,覆蓋混合雲所涉及的雲產品、大數據、雲實例以及用戶所涉及的站點應用等告警,提供告警生命週期管理以及報警外發等解決方案。幫助混合雲平臺快速發現、定位異常問題,協助產品團隊促進產品改進。

2.2特色

2.2.1告警匯聚

  • 默認集成:雲平臺、大數據、雲實例、站點應用
  • 支持擴展:自定義監控

2.2.2報警通道

  • 釘釘&本地化釘釘
  • 短信服務
  • 企業郵箱
  • 警務微信

2.3業務服務流程

圖2:TAC業務服務流程圖

3.主要功能及界面展現

3.1告警盯屏中心

  • 實時展現雲平臺當前全部的告警數據以及列出近7天的產品告警TOP排行, 一目瞭然告警數據, 提高感知力。

圖3:告警盯屏中心界面展現

3.2SRE運維大盤

  • 經過指標化,更方便查看產品的健康情況,判斷是否有故障;
  • 指標項包含:健康率、成功率、轉實例、準時率、正常率、運行率、使用率、寫成功率、讀成功率。

圖4:SRE運維大盤界面展現

3.3告警工做臺

  • 用戶能夠在平臺告警頁面上認領新增的待處理告警,線下處理完成後能夠在個人告警頁面上關閉該告警。
  • 當認領了本身不擅長處理的產品告警,能夠經過線上轉發的方式移交給擅長處理的同窗。
  • 若出現長期沒法處理的告警,在確認無影響的狀況下能夠選擇忽略該告警,避免一直外發形成消息轟炸。
  • 自動恢復的告警無需手動認領關閉,在歷史告警中能夠進行查看。

圖5:告警工做臺界面展現

3.4事件服務中心

打破簽字、短信、郵件式古老的運維管理方式,爲客戶將衆多的線下流程移⾄線上,預設相應的管理體系,以線上提交、線上反饋的模式,能夠統一管理、追蹤閉環、數據存檔,爲⽇常流程管理工做提供更多解決⽅法,逐步代替線下管理。

圖6:事件服務中心界面展現

3.5告警控制策略

  • 支持設置自動分派策略,當指定產品出現告警自動認領告警;
  • 當天首次出現的告警當即通知,非首次出現的告警遵循1440分鐘的靜默期後通知;
  • 支持控制告警發送時的狀態,「發生時」、「認領時」、「關閉時」;
  • 支持預定在指定的時間範圍內使某一類型的告警進入靜默期,告警外發暫時失效;
  • 支持對告警推送的告警類型,產品,級別,部門,項目等進行自定義配置。

圖7:告警控制策略界面展現

3.6告警推送策略

  • 提供用戶體系,系統會識別用戶的手機號碼以及郵箱地址來發送告警;
  • 提供釘釘、短信、郵件的外發的webhook,api接口的配置;
  • 能夠選擇的一個或多個告警策略自定義配置推送告警

圖8:告警推送策略界面展現

3.7監控網關

  • 支持在監控任務頁面配置用戶關心的網站、機器或某個接口,TAC根據規則進行監控;
  • 若現場以前有提供過黑屏化的監控工具,用戶能夠在註冊API頁面註冊一個APP,根據接口調用規範將監控結果上報至TAC以第三方告警來展現和外發。

圖9:監控網關界面展現

3.8釘釘通知

圖10:釘釘通知效果展現

4.結語

目前,混合雲多數項目已經過TAC實現告警通知功能。有效提升告警處理效率,減小因告警未及時處理致使故障的狀況,大幅提升項目運維質量,減小項目人力投入成本。

相關文章
相關標籤/搜索