大數據架構與技術選型

時間 2019-11-13

標籤數據架構技術選型欄目系統架構简体版

原文原文鏈接

瞭解架構能更清晰地認識每一個組件，數據處理流程，用做流程設計和技術選型sql

Flume 專業的日誌收集工具，對象通常是文件類型；數據庫

Sqoop 是專門採集結構化數據的，對象通常是數據庫；緩存

Kafka 其實是一個 MQ，當作緩存，經常使用於高併發；它既能傳輸，也能存儲，只是存儲空間有限，默認 1 G（可配置），且有存儲期限，默認 7 天（可配置）；架構

其實還有一些不太經常使用的工具，如 Logstash、DataX併發

MySQL 關係型數據庫，存儲結構化數據，還有不少其餘關係型數據庫；框架

Mongodb 非關係型數據庫；分佈式

HDFS 分佈式文件系統，非結構化數據，把文件分佈式的存儲在集羣上；高併發

Hive 是基於 hadoop 的數據倉庫，存儲結構化數據；Hive 也能夠用於計算，因此也在計算層工具

HBase oop

其中 HDFS、Hive、HBase 是大數據經常使用的技術，只是 HBase 用戶在減小

MapReduce 基礎分佈式計算框架；

Hive 基於 MapReduce 的計算框架，它把 sql 轉換成了 MapReduce；

Spark 基於內存的計算，計算效率高；

Storm 實時計算，只是它的擴展太少，逐漸被淘汰；

Flink 逐漸火起來；

Tez

相關標籤/搜索