瞭解架構能更清晰地認識每一個組件,數據處理流程,用做流程設計和技術選型sql
Flume 專業的日誌收集工具,對象通常是 文件類型;數據庫
Sqoop 是專門採集結構化數據的,對象通常是 數據庫;緩存
Kafka 其實是一個 MQ,當作緩存,經常使用於高併發;它既能傳輸,也能存儲,只是存儲空間有限,默認 1 G(可配置),且有存儲期限,默認 7 天(可配置);架構
其實還有一些不太經常使用的工具,如 Logstash、DataX併發
MySQL 關係型數據庫,存儲結構化數據,還有不少其餘關係型數據庫;框架
Mongodb 非關係型數據庫;分佈式
HDFS 分佈式 文件系統,非結構化數據,把文件分佈式的存儲在集羣上;高併發
Hive 是基於 hadoop 的數據倉庫,存儲結構化數據;Hive 也能夠用於計算,因此也在計算層工具
HBase oop
S3
其中 HDFS、Hive、HBase 是大數據經常使用的技術,只是 HBase 用戶在減小
MapReduce 基礎分佈式計算框架;
Hive 基於 MapReduce 的計算框架,它把 sql 轉換成了 MapReduce;
Spark 基於內存的計算,計算效率高;
Storm 實時計算,只是它的擴展太少,逐漸被淘汰;
Flink 逐漸火起來;
Tez