數據中臺的存儲系統和計算平臺枚舉

時間 2020-01-09

標籤數據中臺存儲系統計算平臺枚舉简体版

原文原文鏈接

採集&傳輸層

Sqoop
Hadoop、關係型數據庫之間傳輸數據的工具。傳輸時，會啓動多個MR做業併發的傳輸數據
DataX
阿里巴巴開源的數據同步工具，用來在各類異構數據源之間同步數據。好比 RDBMS<->Hadoop/MaxCompute、RDBMS<->hbase/ftp等等。部署、運維很是簡單，將DataX的jar包copy到linux系統中便可運行
Flume
分佈式的高可用的數據收集、彙集的工具。一般用於從其餘系統蒐集數據，如web服務器產生的日誌，結合Kafka的消息隊列功能，實現實時日誌處理、離線日誌投遞。典型的使用方案是：

離線計算：應用系統日誌 -> flume -> kafka -> hdfs -> MR做業
實時計算：應用系統日誌 -> flume -> kafka -> blink/jstorm/storm/spark streaminglinux

Logstash
服務器端數據收集工具，可以同時從多個來源採集、轉換數據。日誌收集功能與Flume比較相似
Kafka
基於發佈/訂閱機制的分佈式的消息系統。經常使用於日誌投遞、分發場景
RocketMQ
阿里巴巴開源的消息隊列工具。通過了雙11場景的洗禮，穩定性、可靠性很是好

存儲層

HDFS
Hadoop分佈式文件系統(HDFS)被設計成適合運行在通用硬件(commodity hardware)上的分佈式文件系統。HDFS是一個高度容錯性的系統，適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問，很是適合大規模數據集上的應用。HDFS放寬了一部分POSIX約束，來實現流式讀取數據文件
HBase
Hbase是分佈式、KV查詢的開源數據庫（其實準確的說是面向列族）。HDFS爲Hbase提供可靠的底層數據存儲服務，MapReduce爲Hbase提供高性能的計算能力，Zookeeper爲Hbase提供穩定服務和Failover機制，LSM數據存儲格式提供了高性能讀寫能力
Redis
Redis是key-value存儲系統。採用ANSI C語言編寫、遵照BSD協議、支持網絡、可基於內存亦可持久化的日誌格式，並提供多種語言的API。提供了哈希(Hash), 列表(list), 集合(sets) 和有序集合(sorted sets)等數據結構
Ceph
開源分佈式存儲系統，提供了塊儲存RDB、分佈式文件儲存Ceph FS、以及分佈式對象存儲Radosgw三大儲存功能，是目前爲數很少的集各類存儲能力於一身的開源存儲中間件
存儲格式
常見的有Apache Parquet，Apache ORC、華爲Carbondata、Kudu、Avro等。在大數據領域，面向不一樣的業務場景，採用不一樣的數據存儲格式。這幾類存儲格式的差別點，主要體如今行、列存儲、預計算

計算層

一、離線計算web

Hive
Hive是基於Hadoop的一個數據倉庫工具，能夠將結構化的數據文件映射爲一張數據庫表，並提供簡單的sql查詢功能，能夠將sql語句轉換爲MapReduce任務進行運行。其優勢是學習成本低，能夠經過類SQL語句快速實現簡單的MapReduce統計，沒必要開發專門的MapReduce應用，十分適合數據倉庫的統計分析。是事實上的離線數據倉庫標準。
Spark
Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架，Spark，擁有Hadoop MapReduce所具備的優勢；但不一樣於MapReduce的是——Job中間輸出結果能夠保存在內存中，從而再也不須要讀寫HDFS，所以Spark能更好地適用於數據挖掘與機器學習等須要迭代的MapReduce的算法。
MaxCompute
阿里巴巴開發，基於MR原理的大數據處理平臺，已經經過阿里雲對外輸出，是一種快速、徹底託管的TB/PB級數據倉庫解決方案。
CDH
CDH是Cloudera的軟件發行版，包含Apache Hadoop及相關項目。全部組件都是100％的開源（Apache許可證）。

二、實時計算算法

Storm/Jstorm
分佈式的、高容錯的實時計算系統，2014年之前應用很是普遍，近幾年初步被其餘流計算產品替代。
Flink
Flink是一個低延遲、高吞吐、統一的大數據計算引擎。在阿里巴巴的生產環境中，Flink的計算平臺能夠實現毫秒級的延遲狀況下，每秒鐘處理上億次的消息或者事件。同時Flink提供了一個Exactly-once的一致性語義。保證了數據的正確性。這樣就使得Flink大數據引擎能夠提供金融級的數據處理能力。
Spark Streaming
Spark Streaming 相似於 Apache Storm，是一個流計算處理框架。Spark Streaming 有高吞吐量和容錯能力強這兩個特色。

在 Spark Streaming 中，處理數據的單位是一批而不是單條，而數據採集倒是逐條進行的，所以 Spark Streaming 系統須要設置間隔使得數據彙總到必定的量後再一併操做，這個間隔就是批處理間隔。批處理間隔是 Spark Streaming 的核心概念和關鍵參數，它決定了 Spark Streaming 提交做業的頻率和數據處理的延遲，同時也影響着數據處理的吞吐量和性能。sql

數據服務層

Kylin
開源的分佈式分析引擎，提供Hadoop/Spark之上的SQL查詢接口及多維分析（OLAP）能力以支持超大規模數據。核心原理是數據預計算，利用空間換時間來加速查詢模式固定的OLAP查詢。最新的版本已經支持了實時數據導入。
Druid
Druid也是一款很是流行的olap引擎，基於MPP架構，採用了預聚合、列式存儲、字典編碼、位圖索引 4個方法，加速查詢性能。截止2019年9月22日，Druid原生不支持數據精確去重功能。快手已經將Druid應用於生產環境。
Presto
Presto是一個開源的分佈式SQL查詢引擎，適用於交互式分析查詢，數據量支持GB到PB字節。Presto的設計和編寫徹底是爲了解決像Facebook這樣規模的商業數據倉庫的交互式分析和處理速度的問題。
Lucene
Lucene 是一個基於Java 的全文信息檢索工具包，目前主流的搜索系統Elasticsearch和solr都是基於lucene的索引和搜索能力進行。
ElasticSearch
基於Lucene的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎。
Solr
Solr是Apache Lucene項目的開源企業搜索平臺。其主要功能包括全文檢索、命中標示、分面搜索、動態聚類、數據庫集成，以及富文本的處理。Solr是高度可擴展的，並提供了分佈式搜索和索引複製。Solr是最流行的企業級搜索引擎，Solr 4還增長了NoSQL支持。
Palo
百度開源的olap引擎，在百度內部使用比較普遍。基於MPP架構，集成了Google Mesa、Cloudera Impala。