怎麼樣聽起來挺厲害的吧?
在一個典型的使用場景下(ELK):用Elasticsearch做爲後臺數據的存儲,kibana用來前端的報表展現。php
Logstash在其過程當中擔任搬運工的角色,它爲數據存儲。報表查詢和日誌解析建立了一個功能強大的管道鏈。css
Logstash提供了多種多樣的 input,filters,codecs和output組件,讓使用者輕鬆實現強大的功能。好了讓咱們開始吧
html
java -version java version "1.7.0_45" Java(TM) SE Runtime Environment (build 1.7.0_45-b18) Java HotSpot(TM) 64-Bit Server VM (build 24.45-b08, mixed mode)
curl -O https://download.elasticsearch.org/logstash/logstash/logstash-1.4.2.tar.gz現在你應該有了一個叫logstash-1.4.2.tar.gz的文件了。 咱們把它解壓一下
tar zxvf logstash-1.4.2.tar.gz cd logstash-1.4.2現在咱們來執行一下:
bin/logstash -e 'input { stdin { } } output { stdout {} }'咱們現在可以在命令行下輸入一些字符。而後咱們將看到logstash的輸出內容:
hello world 2013-11-21T01:22:14.405+0000 0.0.0.0 hello worldOk,還挺有意思的吧... 以上樣例咱們在執行logstash中,定義了一個叫"stdin"的input另外一個"stdout"的output,無論咱們輸入什麼字符。Logstash都會依照某種格式來返回咱們輸入的字符。
這裏注意咱們在命令行中使用了-e參數,該參數贊成Logstash直接經過命令行接受設置。這點尤爲高速的幫助咱們重複的測試配置是否正確而不用寫配置文件。前端
bin/logstash -e 'input { stdin { } } output { stdout { codec => rubydebug } }'咱們再輸入一些字符,此次咱們輸入"goodnight moon":
goodnight moon { "message" => "goodnight moon", "@timestamp" => "2013-11-20T23:48:05.335Z", "@version" => "1", "host" => "my-laptop" }以上演示樣例經過又一次設置了叫"stdout"的output(加入了"codec"參數),咱們就可以改變Logstash的輸出表現。相似的咱們可以經過在你的配置文件里加入或者改動inputs、outputs、filters,就可以使任意的格式化日誌數據成爲可能,從而訂製更合理的存儲格式爲查詢提供便利。
說的好,那麼接下來咱們將創建Elasticsearch來存儲輸入到Logstash的日誌數據。假設你尚未安裝Elasticsearch。你可以下載RPM/DEB包或者手動下載tar包。經過下面命令:java
curl -O https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1.1.1.tar.gz tar zxvf elasticsearch-1.1.1.tar.gz cd elasticsearch-1.1.1/ ./bin/elasticsearch
不一樣的Logstash版本號都有相應的建議Elasticsearch版本號。請確認你使用的Logstash版本號!git
默認的配置對於Logstash和Elasticsearch已經足夠,咱們忽略一些額外的選項來設置elasticsearch做爲output:github
bin/logstash -e 'input { stdin { } } output { elasticsearch { host => localhost } }'任意的輸入一些字符。Logstash會像以前同樣處理日誌(只是此次咱們將不會看到不論什麼的輸出,因爲咱們沒有設置stdout做爲output選項)
you know, for logs咱們可以使用curl命令發送請求來查看ES是否接收到了數據:
curl 'http://localhost:9200/_search?pretty'返回內容例如如下:
{ "took" : 2, "timed_out" : false, "_shards" : { "total" : 5, "successful" : 5, "failed" : 0 }, "hits" : { "total" : 1, "max_score" : 1.0, "hits" : [ { "_index" : "logstash-2013.11.21", "_type" : "logs", "_id" : "2ijaoKqARqGvbMgP3BspJA", "_score" : 1.0, "_source" : {"message":"you know, for logs","@timestamp":"2013-11-21T18:45:09.862Z","@version":"1","host":"my-laptop"} } ] } }恭喜,至此你已經成功利用Elasticsearch和Logstash來收集日誌數據了。
安裝elasticsearch-kopf,僅僅要在你安裝Elasticsearch的文件夾中運行下面命令就能夠:web
bin/plugin -install lmenezes/elasticsearch-kopf接下來訪問 http://localhost:9200/_plugin/kopf 來瀏覽保存在Elasticsearch中的數據,設置及映射!
bin/logstash -e 'input { stdin { } } output { elasticsearch { host => localhost } stdout { } }'當咱們輸入了一些詞組以後。這些輸入的內容回回顯到咱們的終端,同一時候還會保存到Elasticsearch!
(可以使用curl和kopf插件來驗證)。redis
在午夜(GMT),Logstash本身主動依照時間戳更新索引。咱們可以根據追溯多長時間的數據做爲根據來制定保持多少數據。固然你也可以把比較老的數據遷移到其它的地方(又一次索引)來方便查詢,此外假設不過簡單的刪除一段時間數據咱們可以使用Elasticsearch Curator。shell
Logstash經過創建一條事件處理的管道。從你的日誌提取出數據保存到Elasticsearch中。爲高效的查詢數據提供基礎。
爲了讓你高速的瞭解Logstash提供的多種選項,讓咱們先討論一下最常用的一些配置。
不少其它的信息,請參考Logstash事件管道。
redis通常在Logstash消費集羣中做爲"broker"角色,保存events隊列共Logstash消費。
Grok 是眼下最好的方式來將無結構的數據轉換爲有結構可查詢的數據。
有120多種匹配規則,會有一種知足你的需要。
Codecs可以幫助你輕鬆的切割發送過來已經被序列化的數據。流行的codecs包含 json,msgpack,plain(text)。
比方:java異常信息和堆棧信息
內容例如如下:
input { stdin { } } output { elasticsearch { host => localhost } stdout { codec => rubydebug } }接下來,運行命令:
bin/logstash -f logstash-simple.conf咱們看到logstash依照你剛剛建立的配置文件來執行樣例。這樣更加的方便。注意,咱們使用-f參數來從文件獲取而取代以前使用-e參數從命令行中獲取配置。以上演示很easy的樣例。固然解析來咱們繼續寫一些複雜一些的樣例。
input { stdin { } } filter { grok { match => { "message" => "%{COMBINEDAPACHELOG}" } } date { match => [ "timestamp" , "dd/MMM/yyyy:HH:mm:ss Z" ] } } output { elasticsearch { host => localhost } stdout { codec => rubydebug } }運行Logstash依照例如如下參數:
bin/logstash -f logstash-filter.conf
127.0.0.1 - - [11/Dec/2013:00:01:45 -0800] "GET /xampp/status.php HTTP/1.1" 200 3891 "http://cadenza/xampp/navi.php" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0"你將看到相似例如如下內容的反饋信息:
{ "message" => "127.0.0.1 - - [11/Dec/2013:00:01:45 -0800] \"GET /xampp/status.php HTTP/1.1\" 200 3891 \"http://cadenza/xampp/navi.php\" \"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0\"", "@timestamp" => "2013-12-11T08:01:45.000Z", "@version" => "1", "host" => "cadenza", "clientip" => "127.0.0.1", "ident" => "-", "auth" => "-", "timestamp" => "11/Dec/2013:00:01:45 -0800", "verb" => "GET", "request" => "/xampp/status.php", "httpversion" => "1.1", "response" => "200", "bytes" => "3891", "referrer" => "\"http://cadenza/xampp/navi.php\"", "agent" => "\"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0\"" }正像你看到的那樣,Logstash(使用了grok過濾器)能夠將一行的日誌數據(Apache的"combined log"格式)切割設置爲不一樣的數據字段。這一點對於往後解析和查詢咱們本身的日誌數據很實用。比方:HTTP的返回狀態碼。IP地址相關等等。很的easy。不多有匹配規則沒有被grok包括,因此假設你正嘗試的解析一些常見的日誌格式。也許已經有人爲了作了這種工做。假設查看具體匹配規則。參考logstash grok patterns。
你或許注意到在這個樣例中@timestamp字段是設置成December 11, 2013, 說明logstash在日誌產生以後一段時間進行處理的。這個字段在處理日誌中回添到數據中的,舉例來講... 這個值就是logstash處理event的時間戳。
首先。咱們建立一個文件名稱是logstash-apache.conf的配置文件。內容例如如下(你可以依據實際狀況改動你的文件名稱和路徑):
input { file { path => "/tmp/access_log" start_position => beginning } } filter { if [path] =~ "access" { mutate { replace => { "type" => "apache_access" } } grok { match => { "message" => "%{COMBINEDAPACHELOG}" } } } date { match => [ "timestamp" , "dd/MMM/yyyy:HH:mm:ss Z" ] } } output { elasticsearch { host => localhost } stdout { codec => rubydebug } }接下來。咱們依照上面的配置建立一個文件(在樣例中是"/tmp/access.log"),可以將如下日誌信息做爲文件內容(也可以用你本身的webserver產生的日誌):
71.141.244.242 - kurt [18/May/2011:01:48:10 -0700] "GET /admin HTTP/1.1" 301 566 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.3) Gecko/20100401 Firefox/3.6.3" 134.39.72.245 - - [18/May/2011:12:40:18 -0700] "GET /favicon.ico HTTP/1.1" 200 1189 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; InfoPath.2; .NET4.0C; .NET4.0E)" 98.83.179.51 - - [18/May/2011:19:35:08 -0700] "GET /css/main.css HTTP/1.1" 200 1837 "http://www.safesand.com/information.htm" "Mozilla/5.0 (Windows NT 6.0; WOW64; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"現在使用-f參數來運行一下上面的樣例:
bin/logstash -f logstash-apache.conf
此外,數據中type的字段值會被替換成"apache_access"(這個功能在配置中已經指定)。
input { file { path => "/tmp/*_log" ...
然而,假設你檢查了你的數據(或許用elasticsearch-kopf),你將發現access_log日誌被分紅不一樣的字段,但是error_log確沒有這樣。這是因爲咱們使用了「grok」filter並只配置匹配combinedapachelog日誌格式,這樣知足條件的日誌就會本身主動的被切割成不一樣的字段。咱們可以經過控制日誌依照它本身的某種格式來解析日誌,不是很是好的嗎?對吧。
這個概念普通狀況下應該被大多數的Logstash用戶熟悉掌握。
你可以像其它普通的編程語言同樣來使用if,else if和else語句。讓咱們把每個event依賴的日誌文件類型都標記出來(access_log,error_log其它以log結尾的日誌文件)。
input { file { path => "/tmp/*_log" } } filter { if [path] =~ "access" { mutate { replace => { type => "apache_access" } } grok { match => { "message" => "%{COMBINEDAPACHELOG}" } } date { match => [ "timestamp" , "dd/MMM/yyyy:HH:mm:ss Z" ] } } else if [path] =~ "error" { mutate { replace => { type => "apache_error" } } } else { mutate { replace => { type => "random_logs" } } } } output { elasticsearch { host => localhost } stdout { codec => rubydebug } }
input { tcp { port => 5000 type => syslog } udp { port => 5000 type => syslog } } filter { if [type] == "syslog" { grok { match => { "message" => "%{SYSLOGTIMESTAMP:syslog_timestamp} %{SYSLOGHOST:syslog_hostname} %{DATA:syslog_program}(?:\[%{POSINT:syslog_pid}\])?: %{GREEDYDATA:syslog_message}" } add_field => [ "received_at", "%{@timestamp}" ] add_field => [ "received_from", "%{host}" ] } syslog_pri { } date { match => [ "syslog_timestamp", "MMM d HH:mm:ss", "MMM dd HH:mm:ss" ] } } } output { elasticsearch { host => localhost } stdout { codec => rubydebug } }
bin/logstash -f logstash-syslog.conf
首先咱們打開一個新的shell窗體,而後輸入如下的命令:
telnet localhost 5000
Dec 23 12:11:43 louis postfix/smtpd[31499]: connect from unknown[95.75.93.154] Dec 23 14:42:56 louis named[16000]: client 199.48.164.7#64817: query (cache) 'amsterdamboothuren.com/MX/IN' denied Dec 23 14:30:01 louis CRON[619]: (www-data) CMD (php /usr/share/cacti/site/poller.php >/dev/null 2>/var/log/cacti/poller-error.log) Dec 22 18:28:06 louis rsyslogd: [origin software="rsyslogd" swVersion="4.2.0" x-pid="2253" x-info="http://www.rsyslog.com"] rsyslogd was HUPed, type 'lightweight'.
{ "message" => "Dec 23 14:30:01 louis CRON[619]: (www-data) CMD (php /usr/share/cacti/site/poller.php >/dev/null 2>/var/log/cacti/poller-error.log)", "@timestamp" => "2013-12-23T22:30:01.000Z", "@version" => "1", "type" => "syslog", "host" => "0:0:0:0:0:0:0:1:52617", "syslog_timestamp" => "Dec 23 14:30:01", "syslog_hostname" => "louis", "syslog_program" => "CRON", "syslog_pid" => "619", "syslog_message" => "(www-data) CMD (php /usr/share/cacti/site/poller.php >/dev/null 2>/var/log/cacti/poller-error.log)", "received_at" => "2013-12-23 22:49:22 UTC", "received_from" => "0:0:0:0:0:0:0:1:52617", "syslog_severity_code" => 5, "syslog_facility_code" => 1, "syslog_facility" => "user-level", "syslog_severity" => "notice" }