基於Lua+Kafka+Heka的Nginx Log實時監控系統

時間 2019-12-09

標籤基於 lua+kafka+heka lua kafka heka nginx log 實時監控系統欄目 Lua 简体版

原文原文鏈接

背景

在咱們的系統架構中，Nginx做爲全部HTTP請求的入口，是很是重要的一層。天天產生大量的Nginx Access Log，閒置在硬盤上實在是太浪費資源了。因此，能不能把Nginx日誌利用起來，實時監控每一個業務的訪問趨勢、用戶行爲、請求質量和後端異常呢，這就是本文要探討的主題。前端

目的

錯誤碼告警（49九、500、502和504）；git
upstream_response_time超時告警；github
request_time超時告警；後端
數據分析；架構

關於錯誤和超時監控有一點要考慮的是收到告警時，要可以快速知道是哪一個後端服務節點出現了問題。
在這以前，咱們都是經過隨機進入一個Nginx節點tail log才能定位到，效率有些低。運維

架構

廢話很少說，先上架構圖。總體架構沒太複雜的地方，隨便畫了一張，莫笑話我~性能

日誌採集

這部分結合lua-resty-kafka使用Lua擴展將數據按照必定格式拼接後寫入Kafka集羣。Nginx+Lua的性能就不用多說了，這樣一來徹底能夠關掉Nginx自己的日誌開關，減小磁盤消耗；大數據

消息隊列

咱們數據分析組的同事在這以前就已經創建Kafka集羣，無需再搞一套消息隊列服務。另一個很重要的點是，咱們不但願日誌數據取完就刪掉了，運維組除了要作監控告警以外，數據組也要讀取數據作分析。所以，如Redis此類的消息隊列就直接被咱們pass掉了；優化

異常監控計算

這部分使用Heka來作，Heka使用Go語言編寫，內置豐富的插件能夠知足大部分的需求。若不知足需求，可使用Go或者Lua自行開發擴展。以前使用過Logstash作業務日誌收集，但它有時的CPU佔用實在太嚇人，不敢再在業務機上使用，而且感受擴展不方便。就咱們目前的應用來看，Heka的性能和資源佔用仍是很不錯的。lua

可使用Filter作計算，有錯誤時向Heka消息流中寫入告警消息，SMTPOuter匹配到告警消息後經過自定義的Encoder定製好郵件內容後再發送。