大數據（hadoop-flume的原理架構）

時間 2019-11-06

標籤數據 hadoop flume 原理架構欄目 Hadoop 简体版

原文原文鏈接

背景介紹

Hadoop提供了一箇中央化的存儲系統
有利於進行集中式的數據分析與數據共享sql

Hadoop對存儲格式沒有要求：
用戶訪問日誌
產品信息
網頁數據等數據庫

如何將數據存入Hadoop：
數據分散在各個離散的設備上
數據保存在傳統的存儲設備和系統中
架構

常見的兩種數據來源分佈式

分散的數據源：
機器產生的數據；
用戶訪問日誌；
用戶購買日誌。oop

傳統系統中的數據：
傳統關係型數據庫：Mysql、Oracle等；性能

Hadoop收集和入庫基本要求spa

分佈式
數據源多樣化
數據源分散日誌

可靠性
保證不丟數據
容許丟部分數據blog

可擴展
數據源可能會不斷增長同步

經過並行提升性能

數據收集
Flume
Kafka
Scribe

傳統數據庫與Hadoop同步
Sqoop

Flume OG
OG：「Original Genaration」
0.9.x或cdh3以及更早版本
由agent、collector、master等組件構成

Flume NG
NG：「Next/New Generation」
1.x或cdh4以及以後的版本
由Agent、Client等組件構成

爲何要推出NG版本
精簡代碼
架構簡化

Flume OG基本架構

Flume NG基本架構

相關標籤/搜索