大數據(hadoop-flume的原理架構)

背景介紹

Hadoop提供了一箇中央化的存儲系統
   有利於進行集中式的數據分析與數據共享sql

Hadoop對存儲格式沒有要求:
   用戶訪問日誌
   產品信息
   網頁數據等數據庫

如何將數據存入Hadoop:
   數據分散在各個離散的設備上
   數據保存在傳統的存儲設備和系統中
 架構

常見的兩種數據來源分佈式

分散的數據源:
   機器產生的數據;
   用戶訪問日誌;
   用戶購買日誌。oop

傳統系統中的數據:
   傳統關係型數據庫:Mysql、Oracle等;性能

Hadoop收集和入庫基本要求spa

分佈式
   數據源多樣化
   數據源分散日誌

可靠性
   保證不丟數據
   容許丟部分數據blog

可擴展
   數據源可能會不斷增長同步

經過並行提升性能

數據收集
   Flume
   Kafka
   Scribe

傳統數據庫與Hadoop同步
   Sqoop
 

Flume

Flume OG
   OG:「Original Genaration」
   0.9.x或cdh3以及更早版本
   由agent、collector、master等組件構成

Flume NG
   NG:「Next/New Generation」 
   1.x或cdh4以及以後的版本
   由Agent、Client等組件構成

爲何要推出NG版本
   精簡代碼
   架構簡化
 

Flume OG基本架構

 

Flume NG基本架構

相關文章
相關標籤/搜索