【3.工程開發】-問題發現定位

問題發現定位平臺功能點須要全面,實現大多基於日誌(收集多KAFKA,分佈式存儲),日誌檢索(多采用ES,能夠檢索用ES,完整數據存分佈式存儲)。鏈路分析再次基礎上作採樣聚合,接口級別的非採樣在監控中作(時間流存儲,監控報警閾值模型智能預測等),日誌針對性作些細粒度的鏈路分析。技術涉及很少,主要是日誌壓縮和索引的建設。功能點成體系就好。本文重點關注這個。更多工程內容見:https://segmentfault.com/a/11...mysql

日誌規範。定則規範

全鏈路傳遞

1.nginx
nginx擴展+http header傳遞
2.thrift
利用thrift 0號位空缺做爲header使用
3.mq sdk定義格式傳遞消息nginx

問題發現:

clipboard.png
1.odin實時監控,閾值報警。(接口維度,機器維度)
2.woater實時監控,智能報警
3.srm滅火圖/上線事件監控
4.安全掃描sql

問題定位

clipboard.png
5.故障分析平臺(全鏈路故障點)
6.問題分析平臺(搜索:ES)
kafka+ES
詳細日誌查詢:大量debug/trace等日誌。取代機器+grep:ES獲取機器索引時間+日誌壓縮/解壓縮,時間定位查詢
7.性能分析(抽樣)segmentfault

業務評估

clipboard.png

1.機器調用關係
2.服務依賴關係(靜態),次數(統計)
鏈路分析,延時(採樣平均),調用次數(靜態,動態採樣)
3.模塊性能分析(採樣統計)
4.專項(mysql,定位到代碼和人)安全

成本管理

clipboard.png
1.資源成本統計
2.實時資源佔用監控分佈式

總體解決思路

clipboard.png

clipboard.png

相關文章
相關標籤/搜索