Hadoop的數據採集框架

時間 2019-11-17

標籤 hadoop 數據採集框架欄目 Hadoop 简体版

原文原文鏈接

問題導讀：
Hadoop數據採集框架都有哪些？
Hadoop數據採集框架異同及適用場景？java

Hadoop提供了一個高度容錯的分佈式存儲系統，幫助咱們實現集中式的數據分析和數據共享。在平常應用中咱們好比要將各類數據採集到HDFS存儲服務中去，說到將數據採集到HDFS，咱們熟知的框架包括：mysql

Apache Sqoop
Apache Flume
Gobblin DataX
Kettle

以及其餘不少針對特定數據源的採集工具:好比針對Cassandra數據源的Aegisthus，針對mongodb的mongo-hadoop等等。sql

本文就對以上常見的數據採集服務進行簡單的介紹，幫助咱們瞭解各個項目的特色以及適用場景。mongodb

Apache Sqoop

Sqoop ： SQL-to-Had oop,用於在關係型數據庫（RDBMS）和HDFS之間互相傳輸數據。數據庫

Sqoop 啓用了一個MapReduce任務來執行數據採集任務，傳輸大量結構化或半結構化數據的過程是徹底自動化的。其主要經過JDBC和關係數據庫進行交互，理論上支持JDBC的Database均可以使用Sqoop和HDFS進行數據交互。apache

Sqoop目前分爲兩個版本Sqoop1和Sqoop2。這是兩個徹底不一樣的版本，徹底不兼容。Sqoop1瞭解的朋友都知道它就是一個命令行腳本，而Sqoop2相比Sqoop1引入了sqoop server，集中化的管理Connector，引入基於角色的安全機制，並且支持多種訪問方式：cli客戶端，Web ui和Rest API。安全

Sqoop不支持文件解析入庫，適用於關係型數據庫與HDFS/Hive/HBase之間互相傳輸數據。它支持多種關係型數據庫如mysql、oracle、postgresql。能夠高效可控的進行數據導入導出。架構

Github Star 462, Fork 362oracle

Apache Flume

Apache Flume是一個分佈式、可靠、高可用的日誌收集系統，支持各類各樣的數據來源，如http，log文件，監聽端口數據等等，將這些數據源的海量日誌數據進行高效收集、聚合、移動，最後存儲到指定存儲系統中(可擴展)，如kafka、HDFS分佈式文件系統、Solr，HBase等。框架

Flume基於流式數據，適用於日誌和事件類型的數據收集，重構後的Flume-NG版本中一個agent（數據傳輸流程）中的source（源）和sink（目標）之間經過channel進行連接，同一個源能夠配置多個channel。多個agent還能夠進行連接組合共同完成數據收集任務，使用起來很是靈活。

Github Star 1418, Fork 1092

Gobblin

Gobblin是用來整合各類數據源的通用型ETL框架，在某種意義上，各類數據均可以在這裏「一站式」的解決ETL整個過程，專爲大數據採集而生。

做爲一個通用框架，Gobblin的接口封裝和概念抽象作的很好，做爲一個ETL框架使用者，咱們只須要實現咱們本身的Source，Extractor，Conventer類，再加上一些數據源和目的地址之類的配置文件提交給Gobblin就好了。Gobblin相對於其餘解決方案具備廣泛性、高度可擴展性、可操做性。

Github Star 1381, Fork 540