採集&傳輸層
- Sqoop
Hadoop、關係型數據庫之間傳輸數據的工具。傳輸時,會啓動多個MR做業併發的傳輸數據
- DataX
阿里巴巴開源的數據同步工具,用來在各類異構數據源之間同步數據。好比 RDBMS<->Hadoop/MaxCompute、RDBMS<->hbase/ftp等等。部署、運維很是簡單,將DataX的jar包copy到linux系統中便可運行
- Flume
分佈式的高可用的數據收集、彙集的工具。一般用於從其餘系統蒐集數據,如web服務器產生的日誌,結合Kafka的消息隊列功能,實現實時日誌處理、離線日誌投遞。 典型的使用方案是:
離線計算:應用系統日誌 -> flume -> kafka -> hdfs -> MR做業
實時計算:應用系統日誌 -> flume -> kafka -> blink/jstorm/storm/spark streaminglinux
- Logstash
服務器端數據收集工具,可以同時從多個來源採集、轉換數據。日誌收集功能與Flume比較相似
- Kafka
基於發佈/訂閱機制的分佈式的消息系統。經常使用於日誌投遞、分發場景
- RocketMQ
阿里巴巴開源的消息隊列工具。通過了雙11場景的洗禮,穩定性、可靠性很是好
存儲層
- HDFS
Hadoop分佈式文件系統(HDFS)被設計成適合運行在通用硬件(commodity hardware)上的分佈式文件系統。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,很是適合大規模數據集上的應用。HDFS放寬了一部分POSIX約束,來實現流式讀取數據文件
- HBase
Hbase是分佈式、KV查詢的開源數據庫(其實準確的說是面向列族)。HDFS爲Hbase提供可靠的底層數據存儲服務,MapReduce爲Hbase提供高性能的計算能力,Zookeeper爲Hbase提供穩定服務和Failover機制,LSM數據存儲格式提供了高性能讀寫能力
- Redis
Redis是key-value存儲系統。採用ANSI C語言編寫、遵照BSD協議、支持網絡、可基於內存亦可持久化的日誌格式,並提供多種語言的API。提供了哈希(Hash), 列表(list), 集合(sets) 和 有序集合(sorted sets)等數據結構
- Ceph
開源分佈式存儲系統,提供了塊儲存RDB、分佈式文件儲存Ceph FS、以及分佈式對象存儲Radosgw三大儲存功能,是目前爲數很少的集各類存儲能力於一身的開源存儲中間件
- 存儲格式
常見的有Apache Parquet,Apache ORC、華爲Carbondata、Kudu、Avro等。在大數據領域,面向不一樣的業務場景,採用不一樣的數據存儲格式。這幾類存儲格式的差別點,主要體如今行、列存儲、預計算
計算層
一、離線計算web
- Hive
Hive是基於Hadoop的一個數據倉庫工具,能夠將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,能夠將sql語句轉換爲MapReduce任務進行運行。 其優勢是學習成本低,能夠經過類SQL語句快速實現簡單的MapReduce統計,沒必要開發專門的MapReduce應用,十分適合數據倉庫的統計分析。是事實上的離線數據倉庫標準。
- Spark
Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具備的優勢;但不一樣於MapReduce的是——Job中間輸出結果能夠保存在內存中,從而再也不須要讀寫HDFS,所以Spark能更好地適用於數據挖掘與機器學習等須要迭代的MapReduce的算法。
- MaxCompute
阿里巴巴開發,基於MR原理的大數據處理平臺,已經經過阿里雲對外輸出,是一種快速、徹底託管的TB/PB級數據倉庫解決方案。
- CDH
CDH是Cloudera的軟件發行版,包含Apache Hadoop及相關項目。全部組件都是100%的開源(Apache許可證)。
二、實時計算算法
- Storm/Jstorm
分佈式的、高容錯的實時計算系統,2014年之前應用很是普遍,近幾年初步被其餘流計算產品替代。
- Flink
Flink是一個低延遲、高吞吐、統一的大數據計算引擎。在阿里巴巴的生產環境中,Flink的計算平臺能夠實現毫秒級的延遲狀況下,每秒鐘處理上億次的消息或者事件。同時Flink提供了一個Exactly-once的一致性語義。保證了數據的正確性。這樣就使得Flink大數據引擎能夠提供金融級的數據處理能力。
- Spark Streaming
Spark Streaming 相似於 Apache Storm,是一個流計算處理框架。Spark Streaming 有高吞吐量和容錯能力強這兩個特色。
在 Spark Streaming 中,處理數據的單位是一批而不是單條,而數據採集倒是逐條進行的,所以 Spark Streaming 系統須要設置間隔使得數據彙總到必定的量後再一併操做,這個間隔就是批處理間隔。批處理間隔是 Spark Streaming 的核心概念和關鍵參數,它決定了 Spark Streaming 提交做業的頻率和數據處理的延遲,同時也影響着數據處理的吞吐量和性能。sql
數據服務層
- Kylin
開源的分佈式分析引擎,提供Hadoop/Spark之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規模數據。核心原理是數據預計算,利用空間換時間來加速查詢模式固定的OLAP查詢。最新的版本已經支持了實時數據導入。
- Druid
Druid也是一款很是流行的olap引擎,基於MPP架構,採用了 預聚合、列式存儲、字典編碼、位圖索引 4個方法,加速查詢性能。 截止2019年9月22日,Druid原生不支持數據精確去重功能。快手已經將Druid應用於生產環境。
- Presto
Presto是一個開源的分佈式SQL查詢引擎,適用於交互式分析查詢,數據量支持GB到PB字節。Presto的設計和編寫徹底是爲了解決像Facebook這樣規模的商業數據倉庫的交互式分析和處理速度的問題。
- Lucene
Lucene 是一個基於Java 的全文信息檢索工具包,目前主流的搜索系統Elasticsearch和solr都是基於lucene的索引和搜索能力進行。
- ElasticSearch
基於Lucene的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎。
- Solr
Solr是Apache Lucene項目的開源企業搜索平臺。其主要功能包括全文檢索、命中標示、分面搜索、動態聚類、數據庫集成,以及富文本的處理。Solr是高度可擴展的,並提供了分佈式搜索和索引複製。Solr是最流行的企業級搜索引擎,Solr 4還增長了NoSQL支持。
- Palo
百度開源的olap引擎,在百度內部使用比較普遍。基於MPP架構,集成了Google Mesa、Cloudera Impala。
阿里巴巴數據中臺團隊,致力於輸出阿里雲數據智能的最佳實踐,助力每一個企業建設本身的數據中臺,進而共同實現新時代下的智能商業!數據庫
阿里巴巴數據中臺解決方案,核心產品:
Dataphin,以阿里巴巴大數據核心方法論OneData爲內核驅動,提供一站式數據構建與管理能力;
Quick BI,集阿里巴巴數據分析經驗沉澱,提供一站式數據分析與展示能力;服務器
Quick Audience,集阿里巴巴消費者洞察及營銷經驗,提供一站式人羣圈選、洞察及營銷投放能力,鏈接阿里巴巴商業,實現用戶增加。網絡
歡迎志同道合者一塊兒成長!更多內容詳見 https://dp.alibaba.com數據結構
阿里雲雙11領億元補貼,拼手氣抽iPhone 11 Pro、衛衣等好禮,點此參與:http://t.cn/Ai1hLLJT架構
本文做者:向師富併發
原文連接
本文爲雲棲社區原創內容,未經容許不得轉載。