大數據架構與技術選型

大數據基本架構

瞭解架構能更清晰地認識每一個組件,數據處理流程,用做流程設計和技術選型sql

 

數據傳輸層

Flume 專業的日誌收集工具,對象通常是 文件類型;數據庫

Sqoop 是專門採集結構化數據的,對象通常是 數據庫;緩存

Kafka  其實是一個 MQ,當作緩存,經常使用於高併發;它既能傳輸,也能存儲,只是存儲空間有限,默認 1 G(可配置),且有存儲期限,默認 7 天(可配置);架構

其實還有一些不太經常使用的工具,如 Logstash、DataX併發

 

數據存儲層

MySQL 關係型數據庫,存儲結構化數據,還有不少其餘關係型數據庫;框架

Mongodb 非關係型數據庫;分佈式

 

HDFS 分佈式 文件系統,非結構化數據,把文件分佈式的存儲在集羣上;高併發

Hive 是基於 hadoop 的數據倉庫,存儲結構化數據;Hive 也能夠用於計算,因此也在計算層工具

HBase oop

S3

其中 HDFS、Hive、HBase 是大數據經常使用的技術,只是 HBase 用戶在減小

 

數據計算層

MapReduce 基礎分佈式計算框架;

Hive 基於 MapReduce 的計算框架,它把 sql 轉換成了 MapReduce;

Spark 基於內存的計算,計算效率高;

Storm 實時計算,只是它的擴展太少,逐漸被淘汰;

Flink 逐漸火起來;

Tez

相關文章
相關標籤/搜索