簡介:封神-核心功能 | 釘釘告警+數據網關
①租戶側運維能力弱
問題:租戶側,客戶沒有有效途徑,及時地獲取實例級的狀態、性能、容量的數據。
現狀:每日固定時間,駐場須要人肉收集數據,釘釘定時推送給客戶。
②問題排查效率低
問題:應用業務有問題,雲平臺產品正常,客戶並不承認,須要幫助客戶解決問題。
現狀:發現應用實例出現性能、容量被打滿的問題,這個排查過程每每冗長, 效率很低。
③監控能力缺失
問題:雲平臺監控不全,容量管理、性能管理等報表能力缺失。
現狀:駐場須要經過大量人肉巡檢,或者編寫腳本。
④監控 方式時效性低
問題:業務側總會優先於應用與雲平臺感知到故障,運維很是被動 。
現狀:客戶發現問題,通知應用,應用檢查後,再溯源到雲平臺,排查鏈路串行而且低效。前端
①保障業務穩定
經過雲產品的服務能力的變化狀況及業務仿真模型的創建,提早預知客戶業務健康度,低於基線後便會觸發告警。
②SLA化展現
觸發閾值自動報警,量化產品健康情況。算法
圖1:系統架構圖sql
封神系統架構如圖1所示,分爲CLIENT與SERVER端兩大模塊。數據庫
SERVER端:部署在VPC內ECS上,系統框架爲FLASK,分爲數據處理與數據存儲兩大部分。json
①數據處理是指經過提供API接受CLIENT的數據並進行入庫操做以及數據的前端展現。
②數據存儲是指藉助阿里雲RDS數據庫,對數據進行持久化操做做。api
圖2:業務架構圖安全
封神業務架構如如2所示,分爲五大板塊。架構
機器人建立方式可參考文後資料[1]瞭解詳情。app
圖3:姜子牙框架
圖4:申公豹
圖5:雷震子
圖6:比干
圖7:楊戩-1
圖7:楊戩-2
圖7:楊戩-3
圖7:楊戩-4
數據網關分爲兩大模塊:獲取數據、接收數據。
獲取數據分爲告警數據、全量數據、性能數據。
①告警數據:分別對應釘釘機器人推送的告警信息,封裝成相應的數據格式,以API接口形式對外提供數據。
②全量數據:數據庫源表數據,不作任何加工處理,以API接口形式對外提供數據,可操做性較高。
③性能數據:產品性能數據會按期存儲到時序數據庫,存儲時間長,可查詢歷史性能數據。
請求方式:POST請求
URL地址: http://{ip}:{port}/api/v1/sea...
ip:封神ecs\_ip
port:9170
PARAM:參數列表可查看文後資料[2]瞭解詳情。
import sys import requests url = "http://{ip}:{port}/api/v1/search/monitor/" data = {"product":"MQ", "title":"積壓告警", "stime":"2020-01-04 00:00:00", "etime":"2020-01-04 00:01:00"} res = requests.post(url=url, json=data) print res.content
curl -H "Content-Type:application/json" -X POST -d '{"type":"ALL"}' http://{ip}:{port}/api/v1/search/monitor/
①當前存在告警
{"code":0, "data":[{"info":"0.0.0.0,ecs,95% \n 0.0.0.1,ecs,95% ", "product":"ECS", "title":"性能告警", "level":"告警", "robot":"姜子牙", "monitor\_time":"2020-01-14 00:00:00", "columns":"IP,產品,值"}]}
②當前未存在告警數據(告警恢復正常)
{"code":0, "data":[{"info":"", "product":"ECS", "title":"性能告警", "level":"告警", "robot":"姜子牙", "monitor\_time":"2020-01-14 00:00:00", "columns":"IP,產品,值"}]}
③未查詢到數據:
{"code":0, "data":[]}
④查詢異常:
{"code":500, "data":"異常信息"}
請求方式:POST請求
URL地址: http://{ip}:{port}/api/v1/sea...
ip:封神ecs\_ip
port:9170
PARAM:參數列表可查看文後資料[2]瞭解詳情。
import sys import requests url = "http://{ip}:{port}/api/v1/search/data/" data = {"product":"MQ", "title":"TIME", "stime":"2020-01-04 00:00:00", "etime":"2020-01-04 00:01:00"} res = requests.post(url=url, json=data) print res.content
請求方式:POST請求
URL地址: http://{ip}:{port}/api/v1/inf...\_query/
ip:封神ecs\_ip
port:9170
PARAM:參數爲INFLUXDB SQL
import sys import requests url = "http://{ip}:{port}/api/v1/influxdb_query/" data = {"sql":"infudb sql"} res = requests.post(url, data) print res.content
請求方式:POST請求
URL地址:http://{ip}:{port}/api/v1/ins...
ip:封神ecs\_ip
port:9170
PARAM:
import sys import requests url = "http://172.0.0.1:9170/api/v1/insert/third/" data = {"title":"ecs性能監控", "level":"預警", "source":"雲監控", "product":"ecs", "msg":"ip:10.0.0.1 cpu:98% ip:127.0.0.1 mem:99%", "robot":"姜子牙", "submitor":"高德臣", "monitor_time":"2021-03-10 16:00:00", "details":"兄弟 關注下"} res = requests.post(url=url, json=data) print res.text
圖8:告警展現圖
[1] 封神榜部署前置檢查:https://yuque.antfin-inc.com/docs/share/d3a743db-af85-47d2-89c5-4f22eb1693c5?
[2] 獲取封神數據-三方API:https://yuque.antfin-inc.com/docs/share/2037fbb2-35fa-42ad-8476-ec7502e9ed33?#
咱們是阿里雲智能全球技術服務-SRE團隊,咱們致力成爲一個以技術爲基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基於雲構建更加穩定可靠的業務系統,提高業務穩定性。咱們指望可以分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運行更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿里雲SRE技術學院釘釘圈子,和更多雲上人交流關於雲平臺的那些事。
本文內容由阿里雲實名註冊用戶自發貢獻,版權歸原做者全部,阿里雲開發者社區不擁有其著做權,亦不承擔相應法律責任。具體規則請查看《阿里雲開發者社區用戶服務協議》和《阿里雲開發者社區知識產權保護指引》。若是您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將馬上刪除涉嫌侵權內容。