什麼要作日誌分析平臺?html
隨着業務量的增加,天天業務服務器將會產生上億條的日誌,單個日誌文件達幾個GB,這時咱們發現用Linux自帶工具,cat grep awk 分析愈來愈力不從心了,並且除了服務器日誌,還有程序報錯日誌,分佈在不一樣的服務器,查閱繁瑣。java
待解決的痛點:node
一、大量不一樣種類的日誌成爲了運維人員的負擔,不方便管理;linux
二、單個日誌文件巨大,沒法使用經常使用的文本工具分析,檢索困難;nginx
三、日誌分佈在多臺不一樣的服務器上,業務一旦出現故障,須要一臺臺查看日誌。laravel
爲了解決以上困擾:git
接下來咱們要一步步構建這個日誌分析平臺,架構圖以下:github
架構解讀 : (整個架構從左到右,總共分爲5層)apache
第一層、數據採集層
最左邊的是業務服務器集羣,上面安裝了filebeat作日誌採集,同時把採集的日誌分別發送給兩個logstash服務。
第二層、數據處理層,數據緩存層
logstash服務把接受到的日誌通過格式處理,轉存到本地的kafka broker+zookeeper 集羣中。
第三層、數據轉發層
這個單獨的Logstash節點會實時去kafka broker集羣拉數據,轉發至ES DataNode。
第四層、數據持久化存儲
ES DataNode 會把收到的數據,寫磁盤,建索引庫。
第五層、數據檢索,數據展現
ES Master + Kibana 主要協調ES集羣,處理數據檢索請求,數據展現。
筆者爲了節約寶貴的服務器資源,把一些可拆分的服務合併在同一臺主機。你們能夠根據本身的實際業務環境自由拆分,延伸架構。
開 工 !
操做系統環境 : CentOS release 6.5
各服務器角色分配 :
IP | 角色 | 所屬集羣 |
10.10.1.2 | 業務服務器+filebeat | 業務服務器集羣 |
10.10.1.30 | Logstash+Kafka+ZooKeeper |
Kafka Broker 集羣 |
10.10.1.31 | Logstash+Kafka+ZooKeeper | |
10.10.1.32 | Kafka+ZooKeeper | |
10.10.1.50 | Logstash | 數據轉發 |
10.10.1.60 | ES DataNode |
Elasticsearch 集羣 |
10.10.1.90 | ES DataNode | |
10.10.1.244 | ES Master+Kibana |
軟件包版本:
jdk-8u101-linux-x64.rpm
logstash-2.3.2.tar.gz
filebeat-1.2.3-x86_64.rpm
kafka_2.11-0.10.0.1.tgz
zookeeper-3.4.9.tar.gz
elasticsearch-2.3.4.rpm
kibana-4.5.3-linux-x64.tar.gz
1、安裝部署Elasticsearch集羣
佈置ES Master節點 10.10.1.244
一、安裝jdk1.8,elasticsearch-2.3.4
oracle官網 jdk 下載地址: http://www.oracle.com/technetwork/java/javase/downloads/index.html
elasticsearch 官網: https://www.elastic.co/
二、系統調優,JVM調優
三、編寫ES Master節點配置文件
注: path.data、path.logs 這兩個參數指定的路徑,若是沒有須要本身建立,還要賦予權限給elasticsearch用戶。(後面的ES DataNode也一樣)
四、安裝head、kopf、bigdesk 開源插件
安裝方法有兩種 :
一、使用ES自帶的命令plugin
二、自行下載插件的源碼包安裝
咱們經過plugin命令安裝的插件,實際上是安裝到了這個路徑:/usr/share/elasticsearch/plugins
而plugin install 命令後面跟的這一串 mobz/elasticsearch-head 實際上是github上的一個地址。
前面加上github的官網地址就是 https://github.com/mobz/elasticsearch-head 能夠複製到瀏覽器中打開,找到該插件的源碼倉庫。
如今知道了,想要找插件本身能夠去github上搜一下出來一大堆。隨便選一個而後取後面那串路徑,用ES自帶的命令安裝。
若是安裝失敗了,那麼就手動下載該插件的源碼包。 解壓後直接整個目錄mv到 ES 的插件安裝路徑下。
也就是這裏: /usr/share/elasticsearch/plugins/
那如何訪問安裝好的插件呢?
http://ES_server_ip:port/_plugin/plugin_name
Example:
http://127.0.0.1:9200/_plugin/head/
http://127.0.0.1:9200/_plugin/kopf/
這時,ES Master已經配置好了。
佈置ES DataNode節點 10.10.1.60
安裝和系統調優方法同上,插件不用安裝,只是配置文件不一樣。
編寫配置文件
10.10.1.60 也準備好了。
佈置另外一臺ES DataNode節點 10.10.1.90
編寫配置文件
五、如今三臺ES節點已經準備就緒,分別啓動服務
六、訪問head插件,查看集羣狀態
此時 Elasticsearch 集羣已經準備完成
2、配置位於架構圖中第二層的ZooKeeper集羣
配置 10.10.1.30 節點
一、安裝,配置 zookeeper
zookeeper官網: http://zookeeper.apache.org/
編寫配置文件
同步配置文件到其餘兩臺節點
注: zookeeper 集羣,每一個節點的配置文件都是同樣的。因此直接同步過去,不須要作任何修改。
不熟悉zookeeper的朋友,能夠參考這裏: http://tchuairen.blog.51cto.com/3848118/1859494
二、建立myid文件
三、啓動服務 & 查看節點狀態
此時zookeeper集羣配置完成
3、配置位於架構圖中第二層的Kafka Broker集羣
Kafka官網: http://kafka.apache.org/
不熟悉Kafka的朋友能夠參考: http://tchuairen.blog.51cto.com/3848118/1855090
配置 10.10.1.30 節點
一、安裝,配置 kafka
編寫配置文件
注: 其餘兩個節點的配置文件也基本相同,只有一個參數須要修改 broker.id 。 它用於惟一標識節點,因此絕對不能相同,否則會節點衝突。
同步配置文件到其餘兩臺節點
二、配置主機名對應IP的解析
三、啓動服務
Kafka+ZooKeeper集羣配置完成
4、配置位於架構圖中第二層的Logstash服務
配置 10.10.1.30 節點
一、安裝,配置 logstash
配置 GeoLiteCity , 用於地圖顯示IP訪問的城市
官網地址: http://dev.maxmind.com/geoip/legacy/geolite/
下載地址: http://geolite.maxmind.com/download/geoip/database/GeoLiteCity.dat.gz
解壓
gunzip GeoLiteCity.dat.gz
編寫配置文件
二、啓動服務
10.10.1.31 節點的這塊配置,與上述徹底相同。(略)
位於第二層、數據處理層的 Logstash 配置完成
5、配置數據採集層,業務服務器+Filebeat
一、定製Nginx日誌格式
二、安裝 Filebeat
Filebeat 也是 Elasticsearch 公司的產品,在官網能夠下載。
三、編寫 Filebeat 配置文件
四、啓動服務
數據採集層,Filebeat配置完成。
如今業務服務器上的日誌數據已經在源源不斷的寫入緩存了。
6、配置位於架構圖中的第三層,數據轉發層
Logstash安裝上面已經講過(略)
編寫Logstash配置文件
啓動服務
數據轉發層已經配置完成
這時數據已經陸陸續續的從kafka取出,轉存到ES DataNode。
咱們登錄到任意一臺kafka主機,查看數據的緩存和消費狀況
7、修改ES的索引模版配置
爲何要作這一步呢? 由於logstash寫入數據到ES時,會自動選用一個索引模版。 咱們能夠看一下
這個模版其實也挺好,不過有一個參數,我標記出來了。 "refresh_interval":"5s" 這個參數用於控制,索引的刷新頻率。 索引的刷新頻率越快,你搜索到的數據就實時。 這裏是5秒。 通常咱們日誌場景不須要這麼高的實時性。 能夠適當下降該參數,提升ES 索引庫的寫入速度。
上傳自定義模版
因爲這個自定義模版,我把優先級 order 定義的比logstash模版高,而模版的匹配規則又同樣,因此這個自定義模版的配置會覆蓋原logstash模版。
我這裏只是簡單描述。 若是要詳細理解其中道理,請查看個人 ES 調優篇。
8、配置 Kibana 數據展現層
10.10.1.244 節點
Kibana是ELK套件中的一員,也屬於elasticsearch 公司,在官網提供下載。
安裝
修改配置文件
啓動服務
打開瀏覽器訪問: http://10.10.1.244:5601/
定製 Elasticsearch 索引的 Index pattern
默認狀況下,Kibana認爲你要訪問的是經過Logstash導入Elasticsearch的數據,這時候你能夠用默認的 logstash-* 做爲你的 index pattern。 通配符(*)匹配索引名中任意字符任意個數。
選擇一個包含了時間戳的索引字段(字段類型爲 date 的字段),能夠用來作基於時間的處理。Kibana 會讀取索引的
映射,而後列出全部包含了時間戳的字段。若是你的索引沒有基於時間的數據.
關閉 Index contains time-based events 參數。
若是一個新索引是按期生成,並且索引名中帶有時間戳,選擇 Use event times to create index names 選項,
而後再選擇 Index pattern interval 。這能夠提升搜索性能,Kibana 會至搜索你指定的時間範圍內的索引。在你用 Logstash 輸出數據給Elasticsearch 的狀況下尤爲有效。
因爲咱們的索引是用日期命名,按照天天分割的。 index pattern 以下
數據展現
完 工 !