01 Talend Open Studio程序員
是第一家針對的數據集成工具市場的ETL(數據的提取Extract、傳輸Transform、載入Load)開源軟件供應商。Talend的下載量已超過200萬人次,其開源軟件提供了數據整合功能。其用戶包括美國國際集團(AIG)、康卡斯特、電子港灣、通用電氣、三星、Ticketmaster和韋裏遜等企業組織。web
02 DYSON算法
探碼科技自主研發的DYSON智能分析系統,能夠完整的實現大數據的採集、分析、處理。DYSON智能分析系統專業針對互聯網數據抓取、處理、分析,挖掘。能夠靈活迅速地抓取網頁上散亂分佈的信息,並經過強大的處理功能,準確挖掘出所需數據,是目前使用人數最多的網頁採集工具.sql
03 YARNshell
一種新的Hadoop資源管理器,它是一個通用資源管理系統,可爲上層應用提供統一的資源管理和調度,解決了舊MapReduce框架的性能瓶頸。它的基本思想是把資源管理和做業調度/監控的功能分割到單獨的守護進程。數據庫
04 Mesos編程
由加州大學伯克利分校的AMPLab首先開發的一款開源羣集管理軟件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架構。對數據中心而言它就像一個單一的資源池,從物理或虛擬機器中抽離了CPU,內存,存儲以及其它計算資源, 很容易創建和有效運行具有容錯性和彈性的分佈式系統。安全
05 Datale性能優化
由探碼科技研發的一款基於Hadoop的大數據平臺開發套件,RAI大數據應用平臺架構。服務器
06 Ambari
做爲Hadoop生態系統的一部分,提供了基於Web的直觀界面,可用於配置、管理和監控Hadoop集羣。目前已支持大多數Hadoop組件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
07 ZooKeeper
一個分佈式的應用程序協調服務,是Hadoop和Hbase的重要組件。它是一個爲分佈式應用提供一致性服務的工具,讓Hadoop集羣裏面的節點能夠彼此協調。ZooKeeper如今已經成爲了 Apache的頂級項目,爲分佈式系統提供了高效可靠且易於使用的協同服務。
08 Thrift
在2007年facebook提交Apache基金會將Thrift做爲一個開源項目,對於當時的facebook來講創造thrift是爲了解決facebook系統中各系統間大數據量的傳輸通訊以及系統之間語言環境不一樣須要跨平臺的特性。
09 Chukwa
監測大型分佈式系統的一個開源數據採集系統,創建在HDFS/MapReduce框架之上並繼承了Hadoop的可伸縮性和可靠性,能夠收集來自大型分佈式系統的數據,用於監控。它還包括靈活而強大的顯示工具用於監控、分析結果。
10 Lustre
一個大規模的、安全可靠的、具有高可用性的集羣文件系統,它是由SUN公司開發和維護的。該項目主要的目的就是開發下一代的集羣文件系統,目前能夠支持超過10000個節點,數以PB的數據存儲量。
11 HDFS
Hadoop Distributed File System,簡稱HDFS,是一個分佈式文件系統。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,很是適合大規模數據集上的應用。
12 GlusterFS
一個集羣的文件系統,支持PB級的數據量。GlusterFS 經過RDMA和TCP/IP方式將分佈到不一樣服務器上的存儲空間聚集成一個大的網絡化並行文件系統。
13 Alluxio
前身是Tachyon,是之內存爲中心的分佈式文件系統,擁有高性能和容錯能力,可以爲集羣框架(如Spark、MapReduce)提供可靠的內存級速度的文件共享服務。
14 Ceph
新一代開源分佈式文件系統,主要目標是設計成基於POSIX的沒有單點故障的分佈式文件系統,提升數據的容錯性並實現無縫的複製。
15 PVFS
一個高性能、開源的並行文件系統,主要用於並行計算環境中的應用。PVFS特別爲超大數量的客戶端和服務器端所設計,它的模塊化設計結構可輕鬆的添加新的硬件和算法支持。
16 QFS
Quantcast File System (QFS) 是一個高性能、容錯好、分佈式的文件系統,用於開發支持 MapReduce處理或者須要順序讀寫大文件的應用。
17 Logstash
一個應用程序日誌、事件的傳輸、處理、管理和搜索的平臺。能夠用它來統一對應用程序日誌進行收集管理,提供了Web接口用於查詢和統計。
18 Scribe
Scribe是Facebook開源的日誌收集系統,它可以從各類日誌源上收集日誌,存儲到一箇中央存儲系統(能夠是NFS,分佈式文件系統等)上,以便於進行集中統計分析處理。
19 Flume
Cloudera提供的一個高可用的、高可靠的、分佈式的海量日誌採集、聚合和傳輸的系統。Flume支持在日誌系統中定製各種數據發送方,用於收集數據。同時,Flume支持對數據進行簡單處理,並寫入各類數據接受方(可定製)。
20 RabbitMQ
一個受歡迎的消息代理系統,一般用於應用程序之間或者程序的不一樣組件之間經過消息來進行集成。RabbitMQ提供可靠的應用消息發送、易於使用、支持全部主流操做系統、支持大量開發者平臺。
21 ActiveMQ
Apache出品,號稱「最流行的,最強大」的開源消息集成模式服務器。ActiveMQ特色是速度快,支持多種跨語言的客戶端和協議,其企業集成模式和許多先進的功能易於使用,是一個徹底支持JMS1.1和J2EE 1.4規範的JMS Provider實現。
22 Kafka
一種高吞吐量的分佈式發佈訂閱消息系統,它能夠處理消費者規模網站中的全部動做流數據,目前已成爲大數據系統在異步和分佈式消息之間的最佳選擇。
23 Spark
一個高速、通用大數據計算處理引擎。擁有Hadoop MapReduce所具備的優勢,但不一樣的是Job的中間輸出結果能夠保存在內存中,從而再也不須要讀寫HDFS,所以Spark能更好地適用於數據挖掘與機器學習等須要迭代的MapReduce的算法。它能夠與Hadoop和Apache Mesos一塊兒使用,也能夠獨立使用。
24 Kinesis
能夠構建用於處理或分析流數據的自定義應用程序,來知足特定需求。Amazon Kinesis Streams 每小時可從數十萬種來源中連續捕獲和存儲數TB數據,如網站點擊流、財務交易、社交媒體源、IT日誌和定位追蹤事件。
25 Hadoop
一個開源框架,適合運行在通用硬件,支持用簡單程序模型分佈式處理跨集羣大數據集,支持從單一服務器到上千服務器的水平scale up。Apache的Hadoop項目已幾乎與大數據劃上了等號,它不斷壯大起來,已成爲一個完整的生態系統,擁有衆多開源工具面向高度擴展的分佈式計算。高效、可靠、可伸縮,可以爲你的數據存儲項目提供所需的YARN、HDFS和基礎架構,而且運行主要的大數據服務和應用程序。
26 Spark Streaming
實現微批處理,目標是很方便的創建可擴展、容錯的流應用,支持Java、Scala和Python,和Spark無縫集成。Spark Streaming能夠讀取數據HDFS,Flume,Kafka,Twitter和ZeroMQ,也能夠讀取自定義數據。
27 Trident
是對Storm的更高一層的抽象,除了提供一套簡單易用的流數據處理API以外,它以batch(一組tuples)爲單位進行處理,這樣一來,可使得一些處理更簡單和高效。
28 Flink
於今年躋身Apache頂級開源項目,與HDFS徹底兼容。Flink提供了基於Java和Scala的API,是一個高效、分佈式的通用大數據分析引擎。更主要的是,Flink支持增量迭代計算,使得系統能夠快速地處理數據密集型、迭代的任務。
29 Samza
出自於LinkedIn,構建在Kafka之上的分佈式流計算框架,是Apache頂級開源項目。可直接利用Kafka和Hadoop YARN提供容錯、進程隔離以及安全、資源管理。
30 Storm
Storm是Twitter開源的一個相似於Hadoop的實時數據處理框架。編程模型簡單,顯著地下降了實時處理的難度,也是當下最人氣的流計算框架之一。與其餘計算框架相比,Storm最大的優勢是毫秒級低延時。
31 Yahoo S4 (Simple Scalable Streaming System)
是一個分佈式流計算平臺,具有通用、分佈式、可擴展的、容錯、可插拔等特色,程序員能夠很容易地開發處理連續無邊界數據流(continuous unbounded streams of data)的應用。它的目標是填補複雜專有系統和麪向批處理開源產品之間的空白,並提供高性能計算平臺來解決併發處理系統的複雜度。
32 HaLoop
是一個Hadoop MapReduce框架的修改版本,其目標是爲了高效支持 迭代,遞歸數據 分析任務,如PageRank,HITs,K-means,sssp等。
33 Presto
是一個開源的分佈式SQL查詢引擎,適用於交互式分析查詢,可對250PB以上的數據進行快速地交互式分析。Presto的設計和編寫是爲了解決像Facebook這樣規模的商業數據倉庫的交互式分析和處理速度的問題。Facebook稱Presto的性能比諸如Hive和MapReduce要好上10倍有多。
34 Drill
於2012年8月份由Apache推出,讓用戶可使用基於SQL的查詢,查詢Hadoop、NoSQL數據庫和雲存儲服務。它可以運行在上千個節點的服務器集羣上,且能在幾秒內處理PB級或者萬億條的數據記錄。它可用於數據挖掘和即席查詢,支持一系列普遍的數據庫,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亞馬遜S三、Azure Blob Storage、谷歌雲存儲和Swift。
35 Phoenix
是一個Java中間層,可讓開發者在Apache HBase上執行SQL查詢。Phoenix徹底使用Java編寫,而且提供了一個客戶端可嵌入的JDBC驅動。Phoenix查詢引擎會將SQL查詢轉換爲一個或多個HBase scan,並編排執行以生成標準的JDBC結果集。
36 Pig
是一種編程語言,它簡化了Hadoop常見的工做任務。Pig可加載數據、轉換數據以及存儲最終結果。Pig最大的做用就是爲MapReduce框架實現了一套shell腳本 ,相似咱們一般熟悉的SQL語句。
37 Hive
是基於Hadoop的一個數據倉庫工具,能夠將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,能夠將sql語句轉換爲MapReduce任務進行運行。 其優勢是學習成本低,能夠經過類SQL語句快速實現簡單的MapReduce統計,沒必要開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
38 SparkSQL
前身是Shark,SparkSQL拋棄原有Shark的代碼並汲取了一些優勢,如內存列存儲(In-Memory Columnar Storage)、Hive兼容性等。因爲擺脫了對Hive的依賴性,SparkSQL不管在數據兼容、性能優化、組件擴展方面都獲得了極大的方便。
39 Stinger
原來叫Tez,是下一代Hive,由Hortonworks主導開發,運行在YARN上的DAG計算框架。某些測試下,Stinger能提高10倍左右的性能,同時會讓Hive支持更多的SQL。
40 Tajo
目的是在HDFS之上構建一個可靠的、支持關係型數據的分佈式數據倉庫系統,它的重點是提供低延遲、可擴展的ad-hoc查詢和在線數據彙集,以及爲更傳統的ETL提供工具。
41 Impala
Cloudera 聲稱,基於SQL的Impala數據庫是「面向Apache Hadoop的領先的開源分析數據庫」。它能夠做爲一款獨立產品來下載,又是Cloudera的商業大數據產品的一部分。Cloudera Impala 能夠直接爲存儲在HDFS或HBase中的Hadoop數據提供快速、交互式的SQL查詢。
42 Elasticsearch
是一個基於Lucene的搜索服務器。它提供了一個分佈式、支持多用戶的全文搜索引擎,基於RESTful web接口。Elasticsearch是用Java開發的,並做爲Apache許可條款下的開放源碼發佈,是當前流行的企業級搜索引擎。設計用於雲計算中,可以達到實時搜索、穩定、可靠、快速、安裝使用方便。
43 Solr
基於Apache Lucene,是一種高度可靠、高度擴展的企業搜索平臺。知名用戶包括eHarmony、西爾斯、StubHub、Zappos、百思買、AT&T、Instagram、Netflix、彭博社和Travelocity。
44 Shark
即Hive on Spark,本質上是經過Hive的HQL解析,把HQL翻譯成Spark上的RDD操做,而後經過Hive的metadata獲取數據庫裏的表信息,實際HDFS上的數據和文件,會由Shark獲取並放到Spark上運算。Shark的特色就是快,徹底兼容Hive,且能夠在shell模式下使用rdd2sql()這樣的API,把HQL獲得的結果集,繼續在scala環境下運算,支持本身編寫簡單的機器學習或簡單分析處理函數,對HQL結果進一步分析計算。
45 Lucene
基於Java的Lucene能夠很是迅速地執行全文搜索。據官方網站聲稱,它在現代硬件上每小時可以檢索超過150GB的數據,它擁有強大而高效的搜索算法。
46 Terracotta
聲稱其BigMemory技術是「世界上數一數二的內存中數據管理平臺」,支持簡單、可擴展、實時消息,聲稱在190個國家擁有210萬開發人員,全球1000家企業部署了其軟件。
47 Ignite
是一種高性能、整合式、分佈式的內存中平臺,可用於對大規模數據集執行實時計算和處理,速度比傳統的基於磁盤的技術或閃存技術高出好幾個數量級。該平臺包括數據網格、計算網格、服務網格、流媒體、Hadoop加速、高級集羣、文件系統、消息傳遞、事件和數據結構等功能。
48 GemFire
Pivotal宣佈它將開放其大數據套件關鍵組件的源代碼,其中包括GemFire內存中NoSQL數據庫。它已向Apache軟件基金會遞交了一項提案,以便在「Geode」的名下管理GemFire數據庫的核心引擎。
49 GridGain
由Apache Ignite驅動的GridGrain提供內存中數據結構,用於迅速處理大數據,還提供基於同一技術的Hadoop加速器。
50 MongoDB
是一個基於分佈式文件存儲的數據庫。由C++語言編寫。旨在爲web應用提供可擴展的高性能數據存儲解決方案。介於關係數據庫和非關係數據庫之間的開源產品,是非關係數據庫當中功能最豐富、最像關係數據庫的產品。
來源:艾斯尼勒
近期精彩活動(直接點擊查看):