類別
|
名稱
|
官網
|
備註
|
查詢引擎
|
Phoenix
|
Salesforce公司出品,Apache HBase之上的一個SQL中間層,徹底使用Java編寫
|
|
Stinger
|
原叫Tez,下一代Hive,Hortonworks主導開發,運行在YARN上的DAG計算框架
|
||
Presto
|
Facebook開源
|
||
Shark
|
Spark上的SQL執行引擎
|
||
Pig
|
基於Hadoop MapReduce的腳本語言
|
||
Cloudera Impala
|
參照Google Dremel實現,能運行在HDFS或HBase上,使用C++開發
|
||
Apache Drill
|
參照Google Dremel實現
|
||
Apache Tajo
|
一個運行在YARN上支持SQL的分佈式數據倉庫
|
||
Hive
|
基於Hadoop MapReduce的SQL查詢引擎
|
||
流式計算
|
Facebook Puma
|
實時數據流分析 | |
Twitter Rainbird
|
分佈式實時統計系統,如網站的點擊統計 | ||
Yahoo S4
|
Java開發的一個通用的、分佈式的、可擴展的、分區容錯的、可插拔的無主架構的流式系統
|
||
Twitter Storm
|
使用Java和Clojure實現
|
||
迭代計算
|
Apache Hama
|
創建在Hadoop上基於BSP(Bulk Synchronous Parallel)的計算框架,模仿了Google的Pregel。
|
|
Apache Giraph
|
創建在Hadoop上的可伸縮的分佈式迭代圖處理系統,靈感來自BSP(bulk synchronous parallel)和Google的Pregel
|
||
HaLoop
|
迭代的MapReduce
|
||
Twister
|
迭代的MapReduce
|
||
離線計算
|
Hadoop MapReduce
|
經典的大數據批處理系統
|
|
Berkeley Spark
|
使用Scala語言實現,和MapReduce有較大的競爭關係,性能強於MapReduce
|
||
DataTorrent
|
基於Hadoop2.X構建的實時流式處理和分析平臺,每秒能夠處理超過10億個實時事件
|
||
鍵值存儲
|
LevelDB
|
Google開源的高效KV編程庫,注意它只是個庫
|
|
RocksDB
|
Facebook開源的,基於Google的LevelDB,但提升了擴展性能夠運行在多核處理器上
|
||
HyperDex
|
下一代KV存儲系統,支持strings、integers、floats、lists、maps和sets等豐富的數據類型
|
||
TokyoCabinet
|
日本人Mikio Hirabayashi(平林幹雄)開發的一款DBM數據庫,注意它只是個庫(大名鼎鼎的DBM數據庫qdbm就是Mikio Hirabayashi開發的),讀寫很是快
|
||
Voldemort
|
一個分佈式鍵值存儲系統,是Amazon Dynamo的一個開源克隆,LinkedIn開源
|
||
Amazon Dynamo
|
亞馬遜的KV模式的存儲平臺,無主架構
|
||
Tair
|
淘寶出品的高性能、分佈式、可擴展、高可靠的KV結構存儲系統,專爲小文件優化,並提供簡單易用的接口(相似Map),Tair支持Java和C版本的客戶端
|
||
Apache Accumulo
|
一個可靠的、可伸縮的、高性能的排序分佈式的KV存儲系統,參照Google Bigtable而設計,創建在Hadoop、Thrift和Zookeeper之上。
|
||
Redis
|
使用ANSI C語言編寫、支持網絡、可基於內存亦可持久化的日誌型、單機版KV數據庫。從2010年3月15日起,Redis的開發工做由VMware主持
|
||
表格存儲
|
OceanBase
|
支持海量數據的高性能分佈式數據庫系統,實現了數千億條記錄、數百TB數據上的跨行跨表事務
|
|
Amazon SimpleDB
|
一個可大規模伸縮、用 Erlang 編寫的高可用數據存儲
|
||
Vertica
|
惠普2011收購Vertica,Vertica是傳統的關係型數據庫,基於列存儲,同時支持MPP,使用標準的SQL查詢,能夠和Hadoop/MapReduce進行集成
|
||
Cassandra
|
Hadoop成員,Facebook於2008將Cassandra開源,基於O(1)DHT的徹底P2P架構
|
||
HyperTable
|
搜索引擎公司Zvents針對Bigtable的C++開源實現
|
||
FoundationDB
|
支持ACID事務處理的NoSQL數據庫,提供很是好的性能、數據一致性和操做彈性
|
||
HBase
|
Bigtable在Hadoop中的實現,最初是Powerset公司爲了處理天然語言搜索產生的海量數據而開展的項目
|
||
文件存儲
|
CouchDB
|
面向文檔的數據存儲
|
|
MongoDB
|
文檔數據庫
|
||
Tachyon
|
加州大學伯克利分校的AMPLab基於Hadoop的核心組件開發出一個更快的版本Tachyon,它從底層重構了Hadoop平臺。
|
||
KFS
|
GFS的C++開源版本
|
||
HDFS
|
GFS在Hadoop中的實現
|
||
資源管理
|
Twitter Mesos
|
Google Borg的翻版
|
|
Hadoop Yarn
|
相似於Mesos
|
||
日誌收集系統
|
Facebook Scribe
|
Facebook開源的日誌收集系統,可以從各類日誌源上收集日誌,存儲到一箇中央存儲系統(能夠是NFS,分佈式文件系統等)上,以便於進行集中統計分析處理,常與Hadoop結合使用,Scribe用於向HDFS中Push日誌
|
|
Cloudera Flume
|
Cloudera提供的日誌收集系統,支持對日誌的實時性收集
|
||
logstash
|
日誌管理、分析和傳輸工具,可配合kibana、ElasticSearch組建成日誌查詢系統
|
||
kibana
|
爲日誌提供友好的Web查詢頁面
|
||
消息系統
|
StormMQ
|
||
ZeroMQ |
很底層的高性能網絡庫
|
||
RabbitMQ
|
在AMQP基礎上完整的,可複用的企業消息系統
|
||
Apache ActiveMQ
|
能力強勁的開源消息總線
|
||
Jafka
|
開源的、高性能的、跨語言分佈式消息系統,最先是由Apache孵化的Kafka(由LinkedIn捐助給Apache)克隆而來
|
||
Apache Kafka
|
Linkedin於2010年12月份開源的分佈式消息系統,它主要用於處理活躍的流式數據,由Scala寫成
|
||
分佈式服務
|
ZooKeeper
|
分佈式鎖服務,PoxOS算法的實現,對應Google的Chubby
|
|
RPC
|
Apache Avro
|
Hadoop中的RPC
|
|
Facebook Thrift
|
RPC,支持C++/Java/PHP等衆多語言
|
||
集羣管理
|
Nagios
|
監視系統運行狀態和網絡信息的監視系統
|
|
Ganglia
|
UC Berkeley發起的一個開源集羣監視項目,設計用於測量數以千計的節點。
|
||
Apache Ambari
|
Hadoop成員,管理和監視Apache Hadoop集羣的開源框架
|
||
基礎設施
|
LevelDB
|
Google頂級大牛開發的單機版鍵值數據庫,具備很是高的寫性能
|
|
SSTable
|
源於Google,orted String Table | ||
RecordIO
|
源於Google | ||
Flat Buffers
|
針對遊戲開發的,高效的跨平臺序列化庫,相比Proto Buffers開銷更小,由於Flat Buffers沒有解析過程
|
||
Protocol Buffers
|
Google公司開發的一種數據描述語言,相似於XML可以將結構化數據序列化,可用於數據存儲、通訊協議等方面。它不依賴於語言和平臺而且可擴展性極強。
|
||
Consistent Hashing
|
1997年由麻省理工學院提出,目標是爲了解決因特網中的熱點(Hot spot)問題,初衷和CARP十分相似,基本解決了在P2P環境中最爲關鍵的問題——如何在動態的網絡拓撲中分佈存儲和路由。 | ||
Netty
|
JBOSS提供的一個java開源框架,提供異步的、事件驅動的網絡應用程序框架,用以快速開發高性能、高可靠性的網絡服務器和客戶端程序。
|
||
BloomFilter
|
布隆過濾器,1970年由布隆提出,是一個很長的二進制矢量和一系列隨機映射函數,能夠用於檢索一個元素是否在一個集合中,優勢是空間效率和查詢時間都遠遠超過通常的算法,缺點是有必定的誤識別率和刪除困難。 | ||
搜索引擎
|
Nutch
|
開源Java 實現的搜索引擎,誕生Hadoop的地方。
|
|
Lucene
|
一套信息檢索工具包,但並不包含搜索引擎系統,它包含了索引結構、讀寫索引工具、相關性工具、排序等功能。
|
||
SolrCloud
|
基於Solr和Zookeeper的分佈式搜索, Solr4.0 的核心組件之一,主要思想是使用 Zookeeper 做爲集羣的配置信息中心 | ||
Solr
|
Solr是基於Lucene的搜索。
|
||
ElasticSearch
|
開源的(Apache2協議),分佈式的,RESTful的,構建在Apache Lucene之上的的搜索引擎。
|
||
Sphinx
|
一個基於SQL的全文檢索引擎,可結合MySQL、PostgreSQL作全文檢索,可提供比數據庫自己更專業的搜索功能,單一索引可達1億條記錄,1000萬條記錄狀況下的查詢速度爲0.x秒(毫秒級)。
|
||
SenseiDB
|
Linkin公司開發的一個開源分佈式實時半結構化數據庫,在全文索引的基礎封裝了Browse Query Language (BQL,相似SQL)的查詢語法。
|
||
數據挖掘
|
Mahout
|
Hadoop成員,目標是創建一個可擴展的機器學習庫
|
|
Iaas
|
OpenStack
|
美國國家航空航天局和Rackspace合做研發的,以Apache許可證受權雲平臺管理的項目,它不是一個軟件。這個項目由幾個主要的組件組合起來完成一些具體的工做,旨在爲公共及私有云的建設與管理提供軟件的開源項目。6個核心項目:Nova(計算,Compute),Swift(對象存儲,Object),Glance(鏡像,Image),Keystone(身份,Identity),Horizon(自助門戶,Dashboard),Quantum & Melange(網絡&地址管理),另外還有若干社區項目,如Rackspace(負載均衡)、Rackspace(關係型數據庫)。
|
|
Docker
|
應用容器引擎,讓開發者可打包應用及依賴包到一個可移植的容器中,而後發佈到Linux機器上,也可實現虛擬化。
|
||
Kubernetes
|
Google開源的容器集羣管理系統
|
||
Imctfy
|
Google開源的Linux容器
|
||
監控管理
|
Dapper
|
Google生產環境下的大規模分佈式系統的跟蹤系統
|
|
Zipkin
|
Twitter開源的參考Google Dapper而開發,使用Apache Cassandra作爲數據存儲系統
|