大數據工具集

類別
名稱
官網
備註
查詢引擎
Phoenix
Salesforce公司出品,Apache HBase之上的一個SQL中間層,徹底使用Java編寫
Stinger
原叫Tez,下一代Hive,Hortonworks主導開發,運行在YARN上的DAG計算框架
Presto
Facebook開源
Shark
Spark上的SQL執行引擎
Pig
基於Hadoop MapReduce的腳本語言
Cloudera Impala
參照Google Dremel實現,能運行在HDFS或HBase上,使用C++開發
Apache Drill
參照Google Dremel實現
Apache Tajo
一個運行在YARN上支持SQL的分佈式數據倉庫
Hive
基於Hadoop MapReduce的SQL查詢引擎
流式計算
Facebook Puma
  實時數據流分析
Twitter Rainbird
  分佈式實時統計系統,如網站的點擊統計
Yahoo S4
Java開發的一個通用的、分佈式的、可擴展的、分區容錯的、可插拔的無主架構的流式系統
Twitter Storm
使用Java和Clojure實現
迭代計算
Apache Hama
創建在Hadoop上基於BSP(Bulk Synchronous Parallel)的計算框架,模仿了Google的Pregel。
Apache Giraph
創建在Hadoop上的可伸縮的分佈式迭代圖處理系統,靈感來自BSP(bulk synchronous parallel)和Google的Pregel
HaLoop
迭代的MapReduce
Twister
迭代的MapReduce
離線計算
Hadoop MapReduce
經典的大數據批處理系統
Berkeley Spark
使用Scala語言實現,和MapReduce有較大的競爭關係,性能強於MapReduce
DataTorrent
基於Hadoop2.X構建的實時流式處理和分析平臺,每秒能夠處理超過10億個實時事件
鍵值存儲
LevelDB
Google開源的高效KV編程庫,注意它只是個庫
RocksDB
Facebook開源的,基於Google的LevelDB,但提升了擴展性能夠運行在多核處理器上
HyperDex
下一代KV存儲系統,支持strings、integers、floats、lists、maps和sets等豐富的數據類型
TokyoCabinet
日本人Mikio Hirabayashi(平林幹雄)開發的一款DBM數據庫,注意它只是個庫(大名鼎鼎的DBM數據庫qdbm就是Mikio Hirabayashi開發的),讀寫很是快
Voldemort
一個分佈式鍵值存儲系統,是Amazon Dynamo的一個開源克隆,LinkedIn開源
Amazon Dynamo
亞馬遜的KV模式的存儲平臺,無主架構
Tair
淘寶出品的高性能、分佈式、可擴展、高可靠的KV結構存儲系統,專爲小文件優化,並提供簡單易用的接口(相似Map),Tair支持Java和C版本的客戶端
Apache Accumulo
一個可靠的、可伸縮的、高性能的排序分佈式的KV存儲系統,參照Google Bigtable而設計,創建在Hadoop、Thrift和Zookeeper之上。
Redis
使用ANSI C語言編寫、支持網絡、可基於內存亦可持久化的日誌型、單機版KV數據庫。從2010年3月15日起,Redis的開發工做由VMware主持
表格存儲
OceanBase
支持海量數據的高性能分佈式數據庫系統,實現了數千億條記錄、數百TB數據上的跨行跨表事務
Amazon SimpleDB
一個可大規模伸縮、用 Erlang 編寫的高可用數據存儲
Vertica
惠普2011收購Vertica,Vertica是傳統的關係型數據庫,基於列存儲,同時支持MPP,使用標準的SQL查詢,能夠和Hadoop/MapReduce進行集成
Cassandra
Hadoop成員,Facebook於2008將Cassandra開源,基於O(1)DHT的徹底P2P架構
HyperTable
搜索引擎公司Zvents針對Bigtable的C++開源實現
FoundationDB
支持ACID事務處理的NoSQL數據庫,提供很是好的性能、數據一致性和操做彈性
HBase
Bigtable在Hadoop中的實現,最初是Powerset公司爲了處理天然語言搜索產生的海量數據而開展的項目
文件存儲
CouchDB
面向文檔的數據存儲
MongoDB
文檔數據庫
Tachyon
加州大學伯克利分校的AMPLab基於Hadoop的核心組件開發出一個更快的版本Tachyon,它從底層重構了Hadoop平臺。
KFS
GFS的C++開源版本
HDFS
GFS在Hadoop中的實現
資源管理
Twitter Mesos
Google Borg的翻版
Hadoop Yarn
相似於Mesos
日誌收集系統
Facebook Scribe
Facebook開源的日誌收集系統,可以從各類日誌源上收集日誌,存儲到一箇中央存儲系統(能夠是NFS,分佈式文件系統等)上,以便於進行集中統計分析處理,常與Hadoop結合使用,Scribe用於向HDFS中Push日誌
Cloudera Flume
Cloudera提供的日誌收集系統,支持對日誌的實時性收集
logstash
日誌管理、分析和傳輸工具,可配合kibana、ElasticSearch組建成日誌查詢系統
kibana
爲日誌提供友好的Web查詢頁面
消息系統
StormMQ
 
ZeroMQ
很底層的高性能網絡庫
RabbitMQ
在AMQP基礎上完整的,可複用的企業消息系統
Apache ActiveMQ
能力強勁的開源消息總線
Jafka
開源的、高性能的、跨語言分佈式消息系統,最先是由Apache孵化的Kafka(由LinkedIn捐助給Apache)克隆而來
Apache Kafka
Linkedin於2010年12月份開源的分佈式消息系統,它主要用於處理活躍的流式數據,由Scala寫成
分佈式服務
ZooKeeper
分佈式鎖服務,PoxOS算法的實現,對應Google的Chubby
RPC
Apache Avro
Hadoop中的RPC
Facebook Thrift
RPC,支持C++/Java/PHP等衆多語言
集羣管理
Nagios
監視系統運行狀態和網絡信息的監視系統
Ganglia
UC Berkeley發起的一個開源集羣監視項目,設計用於測量數以千計的節點。
Apache Ambari
Hadoop成員,管理和監視Apache Hadoop集羣的開源框架
基礎設施
LevelDB
Google頂級大牛開發的單機版鍵值數據庫,具備很是高的寫性能
SSTable
  源於Google,orted String Table
RecordIO
  源於Google
Flat Buffers
針對遊戲開發的,高效的跨平臺序列化庫,相比Proto Buffers開銷更小,由於Flat Buffers沒有解析過程
Protocol Buffers
Google公司開發的一種數據描述語言,相似於XML可以將結構化數據序列化,可用於數據存儲、通訊協議等方面。它不依賴於語言和平臺而且可擴展性極強。
Consistent Hashing
  1997年由麻省理工學院提出,目標是爲了解決因特網中的熱點(Hot spot)問題,初衷和CARP十分相似,基本解決了在P2P環境中最爲關鍵的問題——如何在動態的網絡拓撲中分佈存儲和路由。
Netty
JBOSS提供的一個java開源框架,提供異步的、事件驅動的網絡應用程序框架,用以快速開發高性能、高可靠性的網絡服務器和客戶端程序。
BloomFilter
  布隆過濾器,1970年由布隆提出,是一個很長的二進制矢量和一系列隨機映射函數,能夠用於檢索一個元素是否在一個集合中,優勢是空間效率和查詢時間都遠遠超過通常的算法,缺點是有必定的誤識別率和刪除困難。
搜索引擎
Nutch
開源Java 實現的搜索引擎,誕生Hadoop的地方。
Lucene
一套信息檢索工具包,但並不包含搜索引擎系統,它包含了索引結構、讀寫索引工具、相關性工具、排序等功能。
SolrCloud
  基於Solr和Zookeeper的分佈式搜索, Solr4.0 的核心組件之一,主要思想是使用 Zookeeper 做爲集羣的配置信息中心
Solr
Solr是基於Lucene的搜索。
ElasticSearch
開源的(Apache2協議),分佈式的,RESTful的,構建在Apache Lucene之上的的搜索引擎。
Sphinx
一個基於SQL的全文檢索引擎,可結合MySQL、PostgreSQL作全文檢索,可提供比數據庫自己更專業的搜索功能,單一索引可達1億條記錄,1000萬條記錄狀況下的查詢速度爲0.x秒(毫秒級)。
SenseiDB
Linkin公司開發的一個開源分佈式實時半結構化數據庫,在全文索引的基礎封裝了Browse Query Language (BQL,相似SQL)的查詢語法。
數據挖掘
Mahout
Hadoop成員,目標是創建一個可擴展的機器學習庫
Iaas
OpenStack
美國國家航空航天局和Rackspace合做研發的,以Apache許可證受權雲平臺管理的項目,它不是一個軟件。這個項目由幾個主要的組件組合起來完成一些具體的工做,旨在爲公共及私有云的建設與管理提供軟件的開源項目。6個核心項目:Nova(計算,Compute),Swift(對象存儲,Object),Glance(鏡像,Image),Keystone(身份,Identity),Horizon(自助門戶,Dashboard),Quantum & Melange(網絡&地址管理),另外還有若干社區項目,如Rackspace(負載均衡)、Rackspace(關係型數據庫)。
Docker
應用容器引擎,讓開發者可打包應用及依賴包到一個可移植的容器中,而後發佈到Linux機器上,也可實現虛擬化。
Kubernetes
Google開源的容器集羣管理系統
Imctfy
Google開源的Linux容器
監控管理
Dapper
Google生產環境下的大規模分佈式系統的跟蹤系統
Zipkin
Twitter開源的參考Google Dapper而開發,使用Apache Cassandra作爲數據存儲系統
相關文章
相關標籤/搜索