Flume是Cloudera提供的一個高可用、高可靠、分佈式的海量日誌採集、聚合和傳輸的系統。Flume支持在日誌系統中定製各種數據發送方用於收集數據,同時Flume提供對數據的簡單處理,並將數據處理結果寫入各類數據接收方的能力。
Flume做爲Cloudera開發的實時日誌收集系統,受到了業界的承認與普遍應用。2010年11月Cloudera開源了Flume的第一個可用版本0.9.2,這個系列版本被統稱爲Flume-OG。隨着Flume功能的擴展,Flume-OG代碼工程臃腫、核心組件設計不合理、核心配置不標準等缺點暴露出來,尤爲是在Flume-OG的最後一個發行版本 0.94.0中,日誌傳輸不穩定的現象尤其嚴重。爲了解決這些問題,2011年10月Cloudera重構了核心組件、核心配置和代碼架構,重構後的版本統稱爲Flume-NG。改動的另外一緣由是將 Flume 歸入 Apache 旗下,Cloudera Flume更名爲Apache Flume。css
Flume的數據流由事件(Event)貫穿始終。事件是Flume的基本數據單位,它攜帶日誌數據(字節數組形式)而且攜帶有頭信息,這些Event由Agent外部的Source生成,當Source捕獲事件後會進行特定的格式化,而後Source會把事件推入(單個或多個)Channel中。能夠把Channel看做是一個緩衝區,它將保存事件直到Sink處理完該事件。Sink負責持久化日誌或者把事件推向另外一個Source。如下是Flume的一些核心概念:
(1)Events:一個數據單元,帶有一個可選的消息頭,能夠是日誌記錄、avro 對象等。
(2)Agent:JVM中一個獨立的Flume進程,包含組件Source、Channel、Sink。
(3)Client:運行於一個獨立線程,用於生產數據並將其發送給Agent。
(4)Source:用來消費傳遞到該組件的Event,從Client收集數據,傳遞給Channel。
(5)Channel:中轉Event的一個臨時存儲,保存Source組件傳遞過來的Event,其實就是鏈接 Source 和 Sink ,有點像一個消息隊列。
(6)Sink:從Channel收集數據,運行在一個獨立線程。
Flume以Agent爲最小的獨立運行單位,一個Agent就是一個JVM。單Agent由Source、Sink和Channel三大組件構成,以下圖所示:
值得注意的是,Flume提供了大量內置的Source、Channel和Sink類型。不一樣類型的Source、Channel和Sink能夠自由組合。組合方式基於用戶設置的配置文件,很是靈活。好比:Channel能夠把事件暫存在內存裏,也能夠持久化到本地硬盤上;Sink能夠把日誌寫入HDFS、HBase、ES甚至是另一個Source等等。Flume支持用戶創建多級流,也就是說多個Agent能夠協同工做,以下圖所示:
更多的瞭解,請查看官網:http://flume.apache.org/FlumeUserGuide.htmlhtml
主機名稱 | 操做系統 | Java版本 | Fiume版本 |
---|---|---|---|
hadoop | centos7 | Java1.8+ | 1.7.0 |
**系統需求:**Flume須要Java 1.6及以上(推薦1.8),對Agent監控目錄的讀寫權限。java
到Flume官網上http://flume.apache.org/download.html下載軟件安裝包,如圖:
能夠在Windows下下載完成,經過xftp上傳至hadoop根目錄下,也能夠在圖片上箭頭指向的版本,點擊「右鍵」,複製連接地址,在hadoop下經過wget安裝linux
下載、解壓apache
$ wget http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz
$ tar -xzf apache-flume-1.7.0-bin.tar.gz
$ mv apache-flume-1.7.0-bin flume
1.到jdk官網http://www.oracle.com/technetwork/java/javase/downloads/index.html 下載軟件安裝包,如圖:
在Windows下下載完成,經過xftp上傳至hadoop根目錄下
首先先卸載虛擬機自帶的openjdk
,經過以下命令centos
$ sudo yum -y remove java*
2.安裝jdk數組
$ sudo yum -y install jdk-8u144-linux-x64.rpm
3.配置java環境變量(局部)ruby
$ vi .bashrc
添加以下內容bash
# Java Environment Variables
export JAVA_HOME=/usr/java/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin
經過以下命令使其生效markdown
$ source .bashrc
測試:$ echo $JAVA_HOME
會顯示以下:
/usr/java/jdk1.8.0_144
至此Java環境變量配置成功
進入到flume的conf下,建立一個flume.conf
文件
$ cd /home/hadoop/flume/conf/
$ vi flume.conf
輸入如下內容
# 指定Agent的組件名稱
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# 指定Flume source(要監聽的路徑)
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /home/hadoop/log
# 指定Flume sink
a1.sinks.k1.type = logger
# 指定Flume channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# 綁定source和sink到channel上
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
$ cd flume
$ bin/flume-ng agent --conf conf --conf-file conf/flume.conf --name a1 -Dflume.root.logger=INFO,console
參數 | 做用 | 舉例 |
---|---|---|
–conf 或 -c | 指定配置文件夾,包含flume-env.sh和log4j的配置文件 | –conf conf |
–conf-file 或 -f | 配置文件地址 | –conf-file conf/flume.conf |
–name 或 -n | agent名稱 | –name a1 |
-z | zookeeper鏈接字符串 | -z zkhost:2181,zkhost1:2181 |
-p | zookeeper中的存儲路徑前綴 | -p /flume |
寫入日誌內容
在/home/hadoop/log
下建立一個flume.log
日誌文件,寫入hello flume
做爲測試內容
$ cd /home/hadoop/log
$ vi flume.log
接着就能夠在前一個終端看到剛剛採集的內容了,以下:
2017-09-18 22:18:28,937 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] Event: { headers:{} body: 68 65 6C 6C 6F 20 66 6C 75 6D 65 20 21 21 hello flume !! }
如圖:
至此flume已經可以正常運行。
————————-華麗的分割線——————————–
筆者推薦博客:http://blog.csdn.net/qq_38799155/article/details/78025621