版權聲明:本文爲博主原創文章,未經博主容許不得轉載。html
在經過flume採集日誌數據的時候,通常都是經過flume 代理從日誌源或者日誌客戶端採集數據到flume代理中,而後再由flume代理送到目標存儲.上圖中就是每一個一級flume代理負責從webserv採集數據,而後再由一個二級flume代理進行日誌彙總。linux
Flume支持從一個源發送事件到多個通道中,這被稱爲事件流的複用。這裏須要在配置中定義事件流的複製/複用,選擇1個或者多個通道進行數據流向。web
下面的內容主要介紹flume 流配置,這節比較水,由於都比較簡單。app
下面的配置例子是外部數據源經過avro客戶端發送數據到HDFS上。下面無節操的直接拷官網ide
[html] view plain copy學習
agent_foo.sources= avro-AppSrv-source url
agent_foo.sinks= hdfs-Cluster1-sink spa
agent_foo.channels= mem-channel-1 .net
# set channel for sources, sinks
# properties of avro-AppSrv-source
agent_foo.sources.avro-AppSrv-source.type= avro
agent_foo.sources.avro-AppSrv-source.bind= localhost
agent_foo.sources.avro-AppSrv-source.port= 10000
# properties of mem-channel-1
agent_foo.channels.mem-channel-1.type= memory
agent_foo.channels.mem-channel-1.capacity= 1000
agent_foo.channels.mem-channel-1.transactionCapacity= 100
# properties of hdfs-Cluster1-sink
agent_foo.sinks.hdfs-Cluster1-sink.type= hdfs
agent_foo.sinks.hdfs-Cluster1-sink.hdfs.path= hdfs://namenode/flume/webdata
單代理多流配置是上面的增強版,至關於一個代理兩個流,一個是從外部avro客戶端到HDFS,另外一個是Linux命令(tail)的輸出到Avro接受代理,2個作成配置。繼續無節操的直接拷官網
[html] view plain copy
# list the sources, sinks and channelsin the agent
agent_foo.sources= avro-AppSrv-source1 exec-tail-source2
agent_foo.sinks= hdfs-Cluster1-sink1 avro-forward-sink2
agent_foo.channels= mem-channel-1 file-channel-2
# flow #1 configuration
agent_foo.sources.avro-AppSrv-source1.channels= mem-channel-1
agent_foo.sinks.hdfs-Cluster1-sink1.channel= mem-channel-1
# flow #2 configuration
agent_foo.sources.exec-tail-source2.channels= file-channel-2
agent_foo.sinks.avro-forward-sink2.channel= file-channel-2
這個配置就是學習(二)的第二個例子,簡單的講就是數據源發送的事件由第一個Flume代理髮送到下一個Flume代理中。下面是官網:
[html] view plain copy
# list sources, sinks and channels inthe agent
agent_foo.sources= avro-AppSrv-source
agent_foo.sinks= avro-forward-sink
agent_foo.channels= file-channel
# define the flow
agent_foo.sources.avro-AppSrv-source.channels= file-channel
agent_foo.sinks.avro-forward-sink.channel= file-channel
# avro sink properties
agent_foo.sources.avro-forward-sink.type= avro
agent_foo.sources.avro-forward-sink.hostname= 10.1.1.100
agent_foo.sources.avro-forward-sink.port= 10000
# configure other pieces
#...
例子都不難理解
Flume支持從一個源到多個通道和sinks,叫作fan out。有兩種模式的fan out,複製和複用。複製就是流的事件被髮送到全部的配置通道去。
[html] view plain copy
# List the sources, sinks and channelsfor the agent
<Agent>.sources= <Source1>
<Agent>.sinks= <Sink1> <Sink2>
<Agent>.channels= <Channel1> <Channel2>
# set list of channels for source(separated by space)
<Agent>.sources.<Source1>.channels= <Channel1> <Channel2>
# set channel for sinks
<Agent>.sinks.<Sink1>.channel= <Channel1>
<Agent>.sinks.<Sink2>.channel= <Channel2>
<Agent>.sources.<Source1>.selector.type= replicating
其中,<Agent>.sources.<Source1>.selector.type= replicating 這個源的選擇類型爲複製。這個參數不指定一個選擇的時候,默認狀況下它複製
複用則是麻煩一下,流的事情是被篩選的發生到不一樣的渠道,須要指定源和扇出通道的規則,感受與case when 相似。
複用的參數爲:<Agent>.sources.<Source1>.selector.type = multiplexing
[html] view plain copy
# Mapping for multiplexing selector
<Agent>.sources.<Source1>.selector.type= multiplexing
<Agent>.sources.<Source1>.selector.header= <someHeader>
<Agent>.sources.<Source1>.selector.mapping.<Value1>= <Channel1>
<Agent>.sources.<Source1>.selector.mapping.<Value2>= <Channel1> <Channel2>
<Agent>.sources.<Source1>.selector.mapping.<Value3>= <Channel2>
#...
<Agent>.sources.<Source1>.selector.default= <Channel2>
官網中給出例子,能夠看出流的事件要聲明一個頭部,而後咱們檢查頭部對應的值,這裏咱們能夠認爲是事件屬性,若是指定的值與設定的通道相匹配,那麼就將該事件發送到被匹配到的通道中去。這個參數就是默認通道<Agent>.sources.<Source1>.selector.default =<Channel2>
下面是官網中複用的詳細配置例子
[html] view plain copy
# list the sources, sinks and channelsin the agent
agent_foo.sources= avro-AppSrv-source1
agent_foo.sinks= hdfs-Cluster1-sink1 avro-forward-sink2
agent_foo.channels= mem-channel-1 file-channel-2
# set channels for source
agent_foo.sources.avro-AppSrv-source1.channels= mem-channel-1 file-channel-2
# set channel for sinks
agent_foo.sinks.hdfs-Cluster1-sink1.channel= mem-channel-1
agent_foo.sinks.avro-forward-sink2.channel= file-channel-2
# channel selector configuration
agent_foo.sources.avro-AppSrv-source1.selector.type= multiplexing
agent_foo.sources.avro-AppSrv-source1.selector.header= State
agent_foo.sources.avro-AppSrv-source1.selector.mapping.CA= mem-channel-1
agent_foo.sources.avro-AppSrv-source1.selector.mapping.AZ= file-channel-2
agent_foo.sources.avro-AppSrv-source1.selector.mapping.NY= mem-channel-1 file-channel-2
agent_foo.sources.avro-AppSrv-source1.selector.default= mem-channel-1
上面例子中,設置事件的頭屬性Header 爲「State」做爲的選擇檢查。剩下的就是與case when 基本同樣。其中,例子中的配置
agent_foo.sources.avro-AppSrv-source1.selector.mapping.NY= mem-channel-1 file-channel-2 從這裏能夠看出映射容許每一個值通道能夠重疊。默認值能夠包含任意數量的通道。