通常咱們須要進行日誌分析場景:直接在日誌文件中 grep、awk 就能夠得到本身想要的信息。但在規模較大的場景中,此方法效率低下,面臨問題包括日誌量太大如何歸檔、文本搜索太慢怎麼辦、如何多維度查詢。須要集中化的日誌管理,全部服務器上的日誌收集彙總。常看法決思路是創建集中式日誌收集系統,將全部節點上的日誌統一收集,管理,訪問。html
通常大型系統是一個分佈式部署的架構,不一樣的服務模塊部署在不一樣的服務器上,問題出現時,大部分狀況須要根據問題暴露的關鍵信息,定位到具體的服務器和服務模塊,構建一套集中式日誌系統,能夠提升定位問題的效率。java
一個完整的集中式日誌系統,須要包含如下幾個主要特色:git
ELK提供了一整套解決方案,而且都是開源軟件,之間互相配合使用,完美銜接,高效的知足了不少場合的應用。目前主流的一種日誌系統。
github
ELK是三個開源軟件的縮寫,分別表示:Elasticsearch , Logstash, Kibana , 它們都是開源軟件。新增了一個FileBeat,它是一個輕量級的日誌收集處理工具(Agent),Filebeat佔用資源少,適合於在各個服務器上搜集日誌後傳輸給Logstash,官方也推薦此工具。web
Elasticsearch是個開源分佈式搜索引擎,提供蒐集、分析、存儲數據三大功能。它的特色有:分佈式,零配置,自動發現,索引自動分片,索引副本機制,restful風格接口,多數據源,自動搜索負載等。正則表達式
Logstash 主要是用來日誌的蒐集、分析、過濾日誌的工具,支持大量的數據獲取方式。通常工做方式爲c/s架構,client端安裝在須要收集日誌的主機上,server端負責將收到的各節點日誌進行過濾、修改等操做在一併發往elasticsearch上去。redis
Kibana 也是一個開源和免費的工具,Kibana能夠爲 Logstash 和 ElasticSearch 提供的日誌分析友好的 Web 界面,能夠幫助彙總、分析和搜索重要數據日誌。json
Filebeat隸屬於Beats。目前Beats包含四種工具:緩存
Filebeat:服務器
https://www.elastic.co/cn/products/beats/filebeat
https://www.elastic.co/guide/en/beats/filebeat/5.6/index.html
Logstash:
https://www.elastic.co/cn/products/logstash
https://www.elastic.co/guide/en/logstash/5.6/index.html
Kibana:
https://www.elastic.co/cn/products/kibana
https://www.elastic.co/guide/en/kibana/5.5/index.html
Elasticsearch:
https://www.elastic.co/cn/products/elasticsearch
https://www.elastic.co/guide/en/elasticsearch/reference/5.6/index.html
elasticsearch中文社區:
https://elasticsearch.cn/
架構圖一:
這是最簡單的一種ELK架構方式。優勢是搭建簡單,易於上手。缺點是Logstash耗資源較大,運行佔用CPU和內存高。另外沒有消息隊列緩存,存在數據丟失隱患。
此架構由Logstash分佈於各個節點上搜集相關日誌、數據,並通過分析、過濾後發送給遠端服務器上的Elasticsearch進行存儲。Elasticsearch將數據以分片的形式壓縮存儲並提供多種API供用戶查詢,操做。用戶亦能夠更直觀的經過配置Kibana Web方便的對日誌查詢,並根據數據生成報表。
架構圖二:
此種架構引入了消息隊列機制,位於各個節點上的Logstash Agent先將數據/日誌傳遞給Kafka(或者Redis),並將隊列中消息或數據間接傳遞給Logstash,Logstash過濾、分析後將數據傳遞給Elasticsearch存儲。最後由Kibana將日誌和數據呈現給用戶。由於引入了Kafka(或者Redis),因此即便遠端Logstash server因故障中止運行,數據將會先被存儲下來,從而避免數據丟失。
架構圖三:
此種架構將收集端logstash替換爲beats,更靈活,消耗資源更少,擴展性更強。同時可配置Logstash 和Elasticsearch 集羣用於支持大集羣系統的運維日誌數據監控和查詢。
Filebeat由兩個主要組件組成:prospectors 和 harvesters。這兩個組件協同工做將文件變更發送到指定的輸出中。
Harvester(收割機):負責讀取單個文件內容。每一個文件會啓動一個Harvester,每一個Harvester會逐行讀取各個文件,並將文件內容發送到制定輸出中。Harvester負責打開和關閉文件,意味在Harvester運行的時候,文件描述符處於打開狀態,若是文件在收集中被重命名或者被刪除,Filebeat會繼續讀取此文件。因此在Harvester關閉以前,磁盤不會被釋放。默認狀況filebeat會保持文件打開的狀態,直到達到close_inactive
(若是此選項開啓,filebeat會在指定時間內將再也不更新的文件句柄關閉,時間從harvester讀取最後一行的時間開始計時。若文件句柄被關閉後,文件發生變化,則會啓動一個新的harvester。關閉文件句柄的時間不取決於文件的修改時間,若此參數配置不當,則可能發生日誌不實時的狀況,由scan_frequency參數決定,默認10s。Harvester使用內部時間戳來記錄文件最後被收集的時間。例如:設置5m,則在Harvester讀取文件的最後一行以後,開始倒計時5分鐘,若5分鐘內文件無變化,則關閉文件句柄。默認5m)。
Prospector(勘測者):負責管理Harvester並找到全部讀取源。
1
2
3
4
|
filebeat.prospectors:
- input_type: log
paths:
- /apps/logs/*/info.log
|
Prospector會找到/apps/logs/*目錄下的全部info.log文件,併爲每一個文件啓動一個Harvester。Prospector會檢查每一個文件,看Harvester是否已經啓動,是否須要啓動,或者文件是否能夠忽略。若Harvester關閉,只有在文件大小發生變化的時候Prospector纔會執行檢查。只能檢測本地的文件。
Filebeat如何記錄文件狀態:
將文件狀態記錄在文件中(默認在/var/lib/filebeat/registry)。此狀態能夠記住Harvester收集文件的偏移量。若鏈接不上輸出設備,如ES等,filebeat會記錄發送前的最後一行,並再能夠鏈接的時候繼續發送。Filebeat在運行的時候,Prospector狀態會被記錄在內存中。Filebeat重啓的時候,利用registry記錄的狀態來進行重建,用來還原到重啓以前的狀態。每一個Prospector會爲每一個找到的文件記錄一個狀態,對於每一個文件,Filebeat存儲惟一標識符以檢測文件是否先前被收集。
Filebeat如何保證事件至少被輸出一次:
Filebeat之因此能保證事件至少被傳遞到配置的輸出一次,沒有數據丟失,是由於filebeat將每一個事件的傳遞狀態保存在文件中。在未獲得輸出方確認時,filebeat會嘗試一直髮送,直到獲得迴應。若filebeat在傳輸過程當中被關閉,則不會再關閉以前確認全部時事件。任何在filebeat關閉以前爲確認的時間,都會在filebeat重啓以後從新發送。這可確保至少發送一次,但有可能會重複。可經過設置shutdown_timeout
參數來設置關閉以前的等待事件迴應的時間(默認禁用)。
Logstash事件處理有三個階段:inputs → filters → outputs。是一個接收,處理,轉發日誌的工具。支持系統日誌,webserver日誌,錯誤日誌,應用日誌,總之包括全部能夠拋出來的日誌類型。
Input:輸入數據到logstash。
一些經常使用的輸入爲:
file:從文件系統的文件中讀取,相似於tial -f命令
syslog:在514端口上監聽系統日誌消息,並根據RFC3164標準進行解析
redis:從redis service中讀取
beats:從filebeat中讀取
Filters:數據中間處理,對數據進行操做。
一些經常使用的過濾器爲:
grok:解析任意文本數據,Grok 是 Logstash 最重要的插件。它的主要做用就是將文本格式的字符串,轉換成爲具體的結構化的數據,配合正則表達式使用。內置120多個解析語法。
官方提供的grok表達式:https://github.com/logstash-plugins/logstash-patterns-core/tree/master/patterns
grok在線調試:https://grokdebug.herokuapp.com/
mutate:對字段進行轉換。例如對字段進行刪除、替換、修改、重命名等。
drop:丟棄一部分events不進行處理。
clone:拷貝 event,這個過程當中也能夠添加或移除字段。
geoip:添加地理信息(爲前臺kibana圖形化展現使用)
Outputs:outputs是logstash處理管道的最末端組件。一個event能夠在處理過程當中通過多重輸出,可是一旦全部的outputs都執行結束,這個event也就完成生命週期。
一些常見的outputs爲:
elasticsearch:能夠高效的保存數據,而且可以方便和簡單的進行查詢。
file:將event數據保存到文件中。
graphite:將event數據發送到圖形化組件中,一個很流行的開源存儲圖形化展現的組件。
Codecs:codecs 是基於數據流的過濾器,它能夠做爲input,output的一部分配置。Codecs能夠幫助你輕鬆的分割發送過來已經被序列化的數據。
一些常見的codecs:
json:使用json格式對數據進行編碼/解碼。
multiline:將匯多個事件中數據彙總爲一個單一的行。好比:java異常信息和堆棧信息。