Hadoop提供了一箇中央化的存儲系統
有利於進行集中式的數據分析與數據共享sql
Hadoop對存儲格式沒有要求:
用戶訪問日誌
產品信息
網頁數據等數據庫
如何將數據存入Hadoop:
數據分散在各個離散的設備上
數據保存在傳統的存儲設備和系統中
架構
常見的兩種數據來源分佈式
分散的數據源:
機器產生的數據;
用戶訪問日誌;
用戶購買日誌。oop
傳統系統中的數據:
傳統關係型數據庫:Mysql、Oracle等;性能
Hadoop收集和入庫基本要求spa
分佈式
數據源多樣化
數據源分散日誌
可靠性
保證不丟數據
容許丟部分數據blog
可擴展
數據源可能會不斷增長同步
經過並行提升性能
數據收集
Flume
Kafka
Scribe
傳統數據庫與Hadoop同步
Sqoop
Flume OG
OG:「Original Genaration」
0.9.x或cdh3以及更早版本
由agent、collector、master等組件構成
Flume NG
NG:「Next/New Generation」
1.x或cdh4以及以後的版本
由Agent、Client等組件構成
爲何要推出NG版本
精簡代碼
架構簡化
Flume OG基本架構
Flume NG基本架構