朱曄的互聯網架構實踐心得S1E4:簡單好用的監控六兄弟git
【下載本文PDF進行閱讀】github
這裏所說的六兄弟只指ELK套件(ElasticSearch+Logstash+Kibana)以及TIG套件(Telegraf+InfluxDb+Grafana)。數據庫
上圖顯示了兩套獨立的體系,ELK和TIG(TIG是我本身編出來的,網上沒有相似於ELK這種約定俗成的說法):數組
這兩套體系都由收集器+存儲+展現網站構成,青綠色的收集器,藍綠色的存儲,紅色的展現網站。緩存
這兩套體系都有免費的組件可使用,安裝配置也相對簡單(固然公司也要賺錢,他們確定都主推Cloud版本,通常也不會用Cloud版本,確定本地部署)。安全
ELK體系更多用於日誌類數據的收集、保存、搜索、查看、報警。服務器
TIG體系更多用於各類Metrics指標類數據的收集、保存、查看、報警。網絡
對於ELK,因爲日誌數據量每每較大,而且突發日誌激增的狀況很廣泛,寫入索引沒有這麼快,因此通常會引入Kafka之類的消息隊列在以前擋一擋。架構
對於ELK,在進入ES以前數據會有一些過濾解析和額外的報警之類的需求,因此可使用logstash在以前做爲一個匯聚處理層,利用豐富的插件作各類處理。可是logstash的性能不是那麼高,對資源的消耗很厲害,使用的時候須要注意。併發
上圖是Kibana的界面,這裏能夠看到咱們把微服務各個組件的日誌都收集到了ES中,在Kibana上可使用表達式進行各類搜索,最經常使用的就是按照串聯微服務整個流程的RequestID或用戶的UserID搜索相關日誌了。不少公司的開發習慣到服務器上去一臺一臺搜索日誌,好一點會用ansible批量搜索,這樣實際上是很是不方便的:
我一直有一個觀點,我認爲再怎麼強調異常都不過度,特別是一直上拋到業務表面的未處理異常以及服務中的系統異常。咱們能夠把異常區分爲業務邏輯主動產生的能夠預先知道是咋回事的業務異常以及沒法預先知道的系統異常。對於系統異常每每意味着底層基礎設施(如網絡、數據庫、中間件)等有抖動或故障或是代碼中有Bug(即便不是Bug也是邏輯不完善的狀況),每個異常,咱們都須要逐一進行排查調查出根本緣由,若是暫時沒有時間調查的話,須要記錄在案有時間再去調查。對於有些業務量特別大的系統,天天會有幾十萬的異常,大概有100+以上的狀況。最差最差那就作到這幾點吧:
作的更好一點甚至咱們能夠爲每個錯誤分配一個ID,若是這個錯誤有機會透傳到用戶這端,在500頁面上不那麼明顯的地方顯示一下這個ID,若是用戶截屏反饋問題的話,能夠輕易經過這個錯誤ID在ELK中找到相應錯誤,一鍵定位問題。
上圖是Grafana的截圖,Grafana支持挺多數據源,InfluxDb也是其中的一個數據源,相似於InfluxDb的產品還有Graphite,也是不錯的選擇。Telegraf是InfluxDb公司的收集數據的Agent套件,會有至關多的插件,這些插件並不複雜,本身也能夠經過Python簡單編寫,就是有點費時間,有現成的麼就用,說白了就是從各個中間件暴露出來的Stats接口收集格式化數據而後寫入InfluxDb中去。咱們來看看Telegraf支持的插件(圖片截取自https://github.com/influxdata/telegraf):
使用這些插件運維或開發本身不須要費什麼力氣就能夠把咱們全部的基礎組件都監控起來了。
如文本一開始的架構圖所示,除了咱們可使用Telegraf的各類插件來收集各類存儲、中間件、系統層面的指標以外,咱們還作了一個MetricsClient小類庫,讓程序能夠把各類打點的數據保存到InfluxDb。其實每一條進入InfluxDb的Measurement記錄只是一個事件,有下面這些信息:
以下圖咱們能夠看到在這個bankservice中,咱們記錄了各類異步同步操做的成功、業務異常、系統異常事件,而後在Grafana進行簡單的配置,就能夠呈現出須要的圖了。
對於MetricsClient,能夠在代碼中手工調用也可使用AOP的方式進行調用,咱們甚至能夠爲全部方法加上這個關注點,自動收集方法的執行次數、時間、結果(正常、業務異常、系統異常)打點記錄到InfluxDb中,而後在Grafana配置本身須要的Dashboard用於監控。
對於RPC框架也是建議框架內部自動整合打點的,保存RPC方法每次執行的狀況,細化到方法的粒度配置出一些圖表來,在出現事故的時候一鍵定位到疑似出問題的方法。經過AOP方+RPC框架自動打點其實已經能夠覆蓋大部分需求了,固然若是咱們在代碼中再加一些業務層面的打點就更好了。
若是咱們爲每個業務行爲,配置兩個圖,一個是調用量,一個是調用性能,以下圖:
那麼:
這裏推薦的配置方式是根據數據流,從前到後,每個環節配置一下數據處理的數量和性能:
出了問題能夠及時定位到出問題的模塊,或至少是業務線,會比無頭蒼蠅好不少(固然,若是咱們沒有事先配置本身須要的Dashboard那也是白搭)。Dashboard必定是須要隨着業務的迭代不斷去維護的,別通過幾輪迭代以前的打點早已廢棄,到出了問題的時候再看Dashboard全是0調用。
Grafana對接InfluxDb數據源挺好的,可是對接MySQL作一些查詢總感受不是特別方便,這裏推薦一個開源的系統Metabase,咱們能夠方便得保存一些SQL進行作一些業務或監控之類的統計。你可能會說了,這些業務統計是運營關注的,並且咱們由BI,咱們須要本身作這些圖表幹啥,我想說咱們即便搞技術也最好有一個本身的小業務面板,不是說關注業務量而是能有一個地方讓咱們知道業務跑的狀況,在關鍵的時候看一眼判斷一下影響範圍。
好了,說到這裏,你是否已看到了經過這六兄弟,其實咱們打造的是一個立體化的監控體系,分享一個排查問題的幾步走方式吧,畢竟在出大問題的時候咱們的時間每每就只有那麼幾分鐘:
有打點、有錯誤日誌、有詳細請求日誌,還怕定位不到問題?