一文快速上手Logstash

時間 2019-11-20

原文原文鏈接

原文地址：https://cloud.tencent.com/developer/article/1353068
css

Elasticsearch是當前主流的分佈式大數據存儲和搜索引擎，能夠爲用戶提供強大的全文本檢索能力，普遍應用於日誌檢索，全站搜索等領域。Logstash做爲Elasicsearch經常使用的實時數據採集引擎，能夠採集來自不一樣數據源的數據，並對數據進行處理後輸出到多種輸出源，是Elastic Stack 的重要組成部分。本文從Logstash的工做原理，使用示例，部署方式及性能調優等方面入手，爲你們提供一個快速入門Logstash的方式。文章最後也給出了一些深刻了解Logstash的的連接，以方便你們根據須要詳細瞭解。html

1 Logstash工做原理

1.1 處理過程

如上圖，Logstash的數據處理過程主要包括：Inputs, Filters, Outputs 三部分，另外在Inputs和Outputs中可使用Codecs對數據格式進行處理。這四個部分均以插件形式存在，用戶經過定義pipeline配置文件，設置須要使用的input，filter，output, codec插件，以實現特定的數據採集，數據處理，數據輸出等功能 linux

（1）Inputs：用於從數據源獲取數據，常見的插件如file, syslog, redis, beats 等[詳細參考]
（2）Filters：用於處理數據如格式轉換，數據派生等，常見的插件如grok, mutate, drop, clone, geoip等[詳細參考]
（3）Outputs：用於數據輸出，常見的插件如elastcisearch，file, graphite, statsd等[詳細參考]
（4）Codecs：Codecs不是一個單獨的流程，而是在輸入和輸出等插件中用於數據轉換的模塊，用於對數據進行編碼處理，常見的插件如json，multiline[詳細參考]

能夠點擊每一個模塊後面的詳細參考連接瞭解該模塊的插件列表及對應功能 ios

1.2 執行模型：

（1）每一個Input啓動一個線程，從對應數據源獲取數據
（2）Input會將數據寫入一個隊列：默認爲內存中的有界隊列（意外中止會致使數據丟失）。爲了防止數丟失Logstash提供了兩個特性：
Persistent Queues：經過磁盤上的queue來防止數據丟失
Dead Letter Queues：保存沒法處理的event（僅支持Elasticsearch做爲輸出源）
（3）Logstash會有多個pipeline worker, 每個pipeline worker會從隊列中取一批數據，而後執行filter和output（worker數目及每次處理的數據量均由配置肯定）

2 Logstash使用示例

2.1 Logstash Hello world

第一個示例Logstash將採用標準輸入和標準輸出做爲input和output，而且不指定filtergit

（1）下載Logstash並解壓（須要預先安裝JDK8）
（2）cd到Logstash的根目錄，並執行啓動命令以下：

 cd logstash-6.4.0

bin/logstash -e 'input { stdin { } } output { stdout {} }'

（3）此時Logstash已經啓動成功，-e表示在啓動時直接指定pipeline配置，固然也能夠將該配置寫入一個配置文件中，而後經過指定配置文件來啓動
（4）在控制檯輸入：hello world，能夠看到以下輸出：

 {

"@version" => "1",

"host" => "localhost",

"@timestamp" => 2018-09-18T12:39:38.514Z,

"message" => "hello world"

}

Logstash會自動爲數據添加@version, host, @timestamp等字段redis

在這個示例中Logstash從標準輸入中得到數據，僅在數據中添加一些簡單字段後將其輸出到標準輸出。docker

2.2 日誌採集

這個示例將採用Filebeat input插件(Elastic Stack中的輕量級數據採集程序)採集本地日誌，而後將結果輸出到標準輸出json

（1）下載示例使用的日誌文件[地址]，解壓並將日誌放在一個肯定位置
（2）安裝filebeat，配置並啓動[參考]

filebeat.yml配置以下（paths改成日誌實際位置，不一樣版本beats配置可能略有變化，請根據狀況調整）centos

 filebeat.prospectors:

- input_type: log

paths:

- /path/to/file/logstash-tutorial.log

output.logstash:

hosts: "localhost:5044"

啓動命令：安全

 ./filebeat -e -c filebeat.yml -d "publish"

（3）配置logstash並啓動

1）建立first-pipeline.conf文件內容以下（該文件爲pipeline配置文件，用於指定input，filter, output等）：

 input {

beats {

port => "5044"

}

}

#filter {

#}

output {

stdout { codec => rubydebug }

}

codec => rubydebug用於美化輸出[參考]

2）驗證配置（注意指定配置文件的路徑）：

 ./bin/logstash -f first-pipeline.conf --config.test_and_exit

3）啓動命令：

 ./bin/logstash -f first-pipeline.conf --config.reload.automatic

--config.reload.automatic選項啓用動態重載配置功能

4）預期結果：

能夠在Logstash的終端顯示中看到，日誌文件被讀取並處理爲以下格式的多條數據

 {

"@timestamp" => 2018-10-09T12:22:39.742Z,

"offset" => 24464,

"@version" => "1",

"input_type" => "log",

"beat" => {

"name" => "VM_136_9_centos",

"hostname" => "VM_136_9_centos",

"version" => "5.6.10"

},

"host" => "VM_136_9_centos",

"source" => "/data/home/michelmu/workspace/logstash-tutorial.log",

"message" => "86.1.76.62 - - [04/Jan/2015:05:30:37 +0000] "GET /style2.css HTTP/1.1" 200 4877 "http://www.semicomplete.com/projects/xdotool/" "Mozilla/5.0 (X11; Linux x86_64; rv:24.0) Gecko/20140205 Firefox/24.0 Iceweasel/24.3.0"",

"type" => "log",

"tags" => [

[0] "beats_input_codec_plain_applied"

]

}

相對於示例2.1，該示例使用了filebeat input插件從日誌中獲取一行記錄，這也是Elastic stack獲取日誌數據最多見的一種方式。另外該示例還採用了rubydebug codec 對輸出的數據進行顯示美化。

2.3 日誌格式處理

能夠看到雖然示例2.2使用filebeat從日誌中讀取數據，並將數據輸出到標準輸出，可是日誌內容做爲一個總體被存放在message字段中，這樣對後續存儲及查詢都極爲不便。能夠爲該pipeline指定一個grok filter來對日誌格式進行處理

（1）在first-pipeline.conf中增長filter配置以下

 input {

beats {

port => "5044"

}

}

filter {

grok {

match => { "message" => "%{COMBINEDAPACHELOG}"}

}

}

output {

stdout { codec => rubydebug }

}

（2）到filebeat的根目錄下刪除以前上報的數據歷史(以便從新上報數據),並重啓filebeat

 sudo rm data/registry

sudo ./filebeat -e -c filebeat.yml -d "publish"

（3）因爲以前啓動Logstash設置了自動更新配置，所以Logstash不須要從新啓動，這個時候能夠獲取到的日誌數據以下：

 {

"request" => "/style2.css",

"agent" => ""Mozilla/5.0 (X11; Linux x86_64; rv:24.0) Gecko/20140205 Firefox/24.0 Iceweasel/24.3.0"",

"offset" => 24464,

"auth" => "-",

"ident" => "-",

"input_type" => "log",

"verb" => "GET",

"source" => "/data/home/michelmu/workspace/logstash-tutorial.log",

"message" => "86.1.76.62 - - [04/Jan/2015:05:30:37 +0000] "GET /style2.css HTTP/1.1" 200 4877 "http://www.semicomplete.com/projects/xdotool/" "Mozilla/5.0 (X11; Linux x86_64; rv:24.0) Gecko/20140205 Firefox/24.0 Iceweasel/24.3.0"",

"type" => "log",

"tags" => [

[0] "beats_input_codec_plain_applied"

],

"referrer" => ""http://www.semicomplete.com/projects/xdotool/"",

"@timestamp" => 2018-10-09T12:24:21.276Z,

"response" => "200",

"bytes" => "4877",

"clientip" => "86.1.76.62",

"@version" => "1",

"beat" => {

"name" => "VM_136_9_centos",

"hostname" => "VM_136_9_centos",

"version" => "5.6.10"

},

"host" => "VM_136_9_centos",

"httpversion" => "1.1",

"timestamp" => "04/Jan/2015:05:30:37 +0000"

}

能夠看到message中的數據被詳細解析出來了

2.4 數據派生和加強

Logstash中的一些filter能夠根據現有數據生成一些新的數據，如geoip能夠根據ip生成經緯度信息

（1）在first-pipeline.conf中增長geoip配置以下

 input {

beats {

port => "5044"

}

}

filter {

grok {

match => { "message" => "%{COMBINEDAPACHELOG}"}

}

geoip {

source => "clientip"

}

}

output {

stdout { codec => rubydebug }

}

（2）如2.3同樣清空filebeat歷史數據，並重啓
（3）固然Logstash仍然不須要重啓，能夠看到輸出變爲以下：

 {

"request" => "/style2.css",

"agent" => ""Mozilla/5.0 (X11; Linux x86_64; rv:24.0) Gecko/20140205 Firefox/24.0 Iceweasel/24.3.0"",

"geoip" => {

"timezone" => "Europe/London",

"ip" => "86.1.76.62",

"latitude" => 51.5333,

"continent_code" => "EU",

"city_name" => "Willesden",

"country_name" => "United Kingdom",

"country_code2" => "GB",

"country_code3" => "GB",

"region_name" => "Brent",

"location" => {

"lon" => -0.2333,

"lat" => 51.5333

},

"postal_code" => "NW10",

"region_code" => "BEN",

"longitude" => -0.2333

},

"offset" => 24464,

"auth" => "-",

"ident" => "-",

"input_type" => "log",

"verb" => "GET",

"source" => "/data/home/michelmu/workspace/logstash-tutorial.log",

"message" => "86.1.76.62 - - [04/Jan/2015:05:30:37 +0000] "GET /style2.css HTTP/1.1" 200 4877 "http://www.semicomplete.com/projects/xdotool/" "Mozilla/5.0 (X11; Linux x86_64; rv:24.0) Gecko/20140205 Firefox/24.0 Iceweasel/24.3.0"",

"type" => "log",

"tags" => [

[0] "beats_input_codec_plain_applied"

],

"referrer" => ""http://www.semicomplete.com/projects/xdotool/"",

"@timestamp" => 2018-10-09T12:37:46.686Z,

"response" => "200",

"bytes" => "4877",

"clientip" => "86.1.76.62",

"@version" => "1",

"beat" => {

"name" => "VM_136_9_centos",

"hostname" => "VM_136_9_centos",

"version" => "5.6.10"

},

"host" => "VM_136_9_centos",

"httpversion" => "1.1",

"timestamp" => "04/Jan/2015:05:30:37 +0000"

}

能夠看到根據ip派生出了許多地理位置信息數據

2.5 將數據導入Elasticsearch

Logstash做爲Elastic stack的重要組成部分，其最經常使用的功能是將數據導入到Elasticssearch中。將Logstash中的數據導入到Elasticsearch中操做也很是的方便，只須要在pipeline配置文件中增長Elasticsearch的output便可。

（1）首先要有一個已經部署好的Logstash，固然可使用騰訊雲快速建立一個Elasticsearch建立地址
（2）在first-pipeline.conf中增長Elasticsearch的配置，以下

 input {

beats {

port => "5044"

}

}

filter {

grok {

match => { "message" => "%{COMBINEDAPACHELOG}"}

}

geoip {

source => "clientip"

}

}

output {

elasticsearch {

hosts => [ "localhost:9200" ]

}

}

（3）清理filebeat歷史數據，並重啓
（4）查詢Elasticsearch確認數據是否正常上傳（注意替換查詢語句中的日期）

 curl -XGET 'http://172.16.16.17:9200/logstash-2018.10.09/_search?pretty&q=response=200'

（5）若是Elasticsearch關聯了Kibana也可使用kibana查看數據是否正常上報

Logstash提供了大量的Input, filter, output, codec的插件，用戶能夠根據本身的須要，使用一個或多個組件實現本身的功能，固然用戶也能夠自定義插件以實現更爲定製化的功能。自定義插件能夠參考[logstash input插件開發]

3 部署Logstash

演示過如何快速使用Logstash後，如今詳細講述一下Logstash的部署方式。

3.1 安裝

安裝JDK：Logstash採用JRuby編寫，運行須要JDK環境，所以安裝Logstash前須要先安裝JDK。（當前6.4僅支持JDK8）
安裝Logstash：能夠採用直接下載壓縮包方式安裝，也經過APT或YUM安裝，另外Logstash支持安裝到Docker中。[Logstash安裝參考]
安裝X-PACK：在6.3及以後版本X-PACK會隨Logstash安裝，在此以前須要手動安裝[參考連接]

3.2 目錄結構

logstash的目錄主要包括：根目錄、bin目錄、配置目錄、日誌目錄、插件目錄、數據目錄

不一樣安裝方式各目錄的默認位置參考[此處]

3.3 配置文件

Pipeline配置文件，名稱能夠自定義，在啓動Logstash時顯式指定，編寫方式能夠參考前面示例，對於具體插件的配置方式參見具體插件的說明(使用Logstash時必須配置)：
用於定義一個pipeline，數據處理方式和輸出源
Settings配置文件(可使用默認配置)：
在使用Logstash時能夠不用設置，用於性能調優，日誌記錄等
- logstash.yml：用於控制logstash的執行過程[參考連接]
- pipelines.yml: 若是有多個pipeline時使用該配置來配置多pipeline執行[參考連接]
- jvm.options：jvm的配置
- log4j2.properties:log4j 2的配置，用於記錄logstash運行日誌[參考連接]
- startup.options: 僅適用於Lniux系統，用於設置系統啓動項目！
爲了保證敏感配置的安全性，logstash提供了配置加密功能[參考連接]

3.4 啓動關閉方式

3.4.1 啓動

命令行啓動
在debian和rpm上以服務形式啓動
在docker中啓動3.4.2 關閉
關閉Logstash
Logstash的關閉時會先關閉input中止輸入，而後處理完全部進行中的事件，而後才徹底中止，以防止數據丟失，但這也致使中止過程出現延遲或失敗的狀況。

3.5 擴展Logstash

當單個Logstash沒法知足性能需求時，能夠採用橫向擴展的方式來提升Logstash的處理能力。橫向擴展的多個Logstash相互獨立，採用相同的pipeline配置，另外能夠在這多個Logstash前增長一個LoadBalance，以實現多個Logstash的負載均衡。

4 性能調優

[詳細調優參考]

（1）Inputs和Outputs的性能：當輸入輸出源的性能已經達到上限，那麼性能瓶頸不在Logstash，應優先對輸入輸出源的性能進行調優。
（2）系統性能指標：
- CPU：肯定CPU使用率是否太高，若是CPU太高則先查看JVM堆空間使用率部分，確認是否爲GC頻繁致使，若是GC正常，則能夠經過調節Logstash worker相關配置來解決。
- 內存：因爲Logstash運行在JVM上，所以注意調整JVM堆空間上限，以便其有足夠的運行空間。另外注意Logstash所在機器上是否有其餘應用佔用了大量內存，致使Logstash內存磁盤交換頻繁。
- I/O使用率：
  1）磁盤IO：
  磁盤IO飽和多是由於使用了會致使磁盤IO飽和的建立（如file output）,另外Logstash中出現錯誤產生大量錯誤日誌時也會致使磁盤IO飽和。Linux下能夠經過iostat, dstat等查看磁盤IO狀況
  2）網絡IO：
  網絡IO飽和通常發生在使用有大量網絡操做的插件時。linux下可使用dstat或iftop等查看網絡IO狀況
（3）JVM堆檢查：
- 若是JVM堆大小設置太小會致使GC頻繁，從而致使CPU使用率太高
- 快速驗證這個問題的方法是double堆大小，看性能是否有提高。注意要給系統至少預留1GB的空間。
- 爲了精確查找問題可使用jmap或VisualVM。[參考]
- 設置Xms和Xmx爲相同值，防止堆大小在運行時調整，這個過程很是消耗性能。
（4）Logstash worker設置：
worker相關配置在logstash.yml中，主要包括以下三個：
- pipeline.workers：
該參數用以指定Logstash中執行filter和output的線程數，當若是發現CPU使用率還沒有達到上限，能夠經過調整該參數，爲Logstash提供更高的性能。建議將Worker數設置適當超過CPU核數能夠減小IO等待時間對處理過程的影響。實際調優中能夠先經過-w指定該參數，當肯定好數值後再寫入配置文件中。
- pipeline.batch.size:
該指標用於指定單個worker線程一次性執行flilter和output的event批量數。增大該值能夠減小IO次數，提升處理速度，可是也覺得這增長內存等資源的消耗。當與Elasticsearch聯用時，該值能夠用於指定Elasticsearch一次bluck操做的大小。
- pipeline.batch.delay:
該指標用於指定worker等待時間的超時時間，若是worker在該時間內沒有等到pipeline.batch.size個事件，那麼將直接開始執行filter和output而再也不等待。

結束語

Logstash做爲Elastic Stack的重要組成部分，在Elasticsearch數據採集和處理過程當中扮演着重要的角色。本文經過簡單示例的演示和Logstash基礎知識的鋪陳，但願能夠幫助初次接觸Logstash的用戶對Logstash有一個總體認識，並能較爲快速上手。對於Logstash的高階使用，仍須要用戶在使用過程當中結合實際狀況查閱相關資源深刻研究。固然也歡迎你們積極交流，並對文中的錯誤提出寶貴意見。