Gobblin採集kafka數據

時間 2019-12-08

原文原文鏈接

一.Gobblin環境變量準備css

須要配置好Gobblin0.11.0工做時對應的環境變量，能夠去Gobblin的bin目錄的gobblin-env.sh配置，好比html

job.name=GobblinKafkaQuickStart
job.group=GobblinKafka
job.description=Gobblin quick start job for Kafka
job.lock.enabled=false
job.schedule=0/3 * * * ?
kafka.brokers=101.236.39.141:9092,101.236.46.114:9092,101.236.46.113:9092
source.class=gobblin.source.extractor.extract.kafka.KafkaSimpleSource
extract.namespace=gobblin.extract.kafka
     
writer.builder.class=gobblin.writer.SimpleDataWriterBuilder
writer.file.path.type=tablename
writer.destination.type=HDFS
writer.output.format=txt
     
data.publisher.type=gobblin.publisher.BaseDataPublisher
     
mr.job.max.mappers=1
     
metrics.reporting.file.enabled=true
metrics.log.dir=${env:GOBBLIN_WORK_DIR}/metrics
metrics.reporting.file.suffix=txt
     
bootstrap.with.offset=earliest

這裏須要配置好抽取數據的kafka broker以及一些gobblin的工做組件，如source,extract,writer,publisher等，不明白的能夠參考Gobblin wiki,很詳細.java

我這裏額外配置了一個job.schedule讓gobblin三分鐘檢查一次kafka的全部topic是否有新增，而後抽取任務就會三分鐘一次定時執行.這裏用的Gobblin自帶的Quartz定時器.git

ok,配置好之後進入Gobblin根目錄,啓動命令如:github

bin/gobblin-standalone.sh –conffile $GOBBLIN_JOB_CONFIG_DIR/gobblinStandalone.pull startjson

我這裏GOBBLIN_JOB_CONFIG_DIR有多個pull文件，所以須要指明，若是GOBBLIN_JOB_CONFIG_DIR下只有一個配置文件，那麼直接bin/gobblin-standalone.sh start便可執行bootstrap

最終抽取過來的數據會輸出到GOBBLIN_WORK_DIR/job-output 中去.app

三.Gobblin MapReduce模式配置和使用ide

此次配置Gobblin會使用MapReduce來抽取kafka數據到Hdfs，新建gobblin-mr.pull文件，配置以下工具

job.name=GobblinKafkaMapreduce
job.group=GobblinKafkaForMapreduce
job.description=Gobblin quick start job for Kafka
job.lock.enabled=false
kafka.brokers=101.236.39.141:9092,101.236.46.114:9092,101.236.46.113:9092

source.class=gobblin.source.extractor.extract.kafka.KafkaSimpleSource
extract.namespace=gobblin.extract.kafka
topic.whitelist=boot

writer.builder.class=gobblin.writer.SimpleDataWriterBuilder
writer.file.path.type=tablename
writer.destination.type=HDFS
writer.output.format=txt
simple.writer.delimiter=\n
data.publisher.type=gobblin.publisher.BaseDataPublisher

mr.job.max.mappers=1

metrics.reporting.file.enabled=true
metrics.log.dir=${env:GOBBLIN_WORK_DIR}/metrics
metrics.reporting.file.suffix=txt

bootstrap.with.offset=earliest

fs.uri=hdfs://101.236.39.141:9000
#fs.uri=hdfs://clusterYL
writer.fs.uri=${fs.uri}
state.store.fs.uri=${fs.uri}

mr.job.root.dir=/gobblin/working
state.store.dir=/gobblin/state-store
task.data.root.dir=/gobblin/task-data
data.publisher.final.dir=/gobblin/job-output