HDFS Hadoop Distributed File System,簡稱HDFS,是一個分佈式文件系統。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,很是適合大規模數據集上的應用。java
GlusterFS 是一個集羣的文件系統,支持PB級的數據量。GlusterFS 經過RDMA和TCP/IP方式將分佈到不一樣服務器上的存儲空間聚集成一個大的網絡化並行文件系統。程序員
Ceph 是新一代開源分佈式文件系統,主要目標是設計成基於POSIX的沒有單點故障的分佈式文件系統,提升數據的容錯性並實現無縫的複製。web
Lustre 是一個大規模的、安全可靠的、具有高可用性的集羣文件系統,它是由SUN公司開發和維護的。該項目主要的目的就是開發下一代的集羣文件系統,目前能夠支持超過10000個節點,數以PB的數據存儲量。算法
Alluxio 前身是Tachyon,是之內存爲中心的分佈式文件系統,擁有高性能和容錯能力,可以爲集羣框架(如Spark、MapReduce)提供可靠的內存級速度的文件共享服務。
PVFS 是一個高性能、開源的並行文件系統,主要用於並行計算環境中的應用。PVFS特別爲超大數量的客戶端和服務器端所設計,它的模塊化設計結構可輕鬆的添加新的硬件和算法支持。sql
MongoDB 是一個基於分佈式文件存儲的數據庫。由C++語言編寫。旨在爲web應用提供可擴展的高性能數據存儲解決方案。介於關係數據庫和非關係數據庫之間的開源產品,是非關係數據庫當中功能最豐富、最像關係數據庫的產品。shell
Redis 是一個高性能的key-value存儲系統,和Memcached相似,它支持存儲的value類型相對更多,包括string(字符串)、list(鏈表)、set(集合)和zset(有序集合)。Redis的出現,很大程度補償了memcached這類key/value存儲的不足,在部分場合能夠對關係數據庫起到很好的補充做用。數據庫
HDFS Hadoop分佈式文件系統(HDFS)被設計成適合運行在通用硬件(commodity hardware)上的分佈式文件系統。它和現有的分佈式文件系統有不少共同點。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,很是適合大規模數據集上的應用。編程
HBASE 是Hadoop的數據庫,一個分佈式、可擴展、大數據的存儲。是爲有數十億行和數百萬列的超大表設計的,是一種分佈式數據庫,能夠對大數據進行隨機性的實時讀取/寫入訪問。提供相似谷歌Bigtable的存儲能力,基於Hadoop和Hadoop分佈式文件系統(HDFS)而建。api
Neo4j 是一個高性能的,NOSQL圖形數據庫,它將結構化數據存儲在網絡上而不是表中。自稱「世界上第一個和最好的圖形數據庫」,「速度最快、擴展性最佳的原生圖形數據庫」,「最大和最有活力的社區」。用戶包括Telenor、Wazoku、ebay、必能寶(Pitney Bowes)、MigRaven、思樂(Schleich)和Glowbl等。
Vertica 基於列存儲高性能和高可用性設計的數據庫方案,因爲對大規模並行處理(MPP)技術的支持,提供細粒度、可伸縮性和可用性的優點。每一個節點徹底獨立運做,徹底無共享架構,下降了共享資源的系統競爭。瀏覽器
Cassandra 是一個混合型的非關係的數據庫,相似於Google的BigTable,其主要功能比Dynamo (分佈式的Key-Value存儲系統)更豐富。這種NoSQL數據庫最初由Facebook開發,現已被1500多家企業組織使用,包括蘋果、歐洲原子核研究組織(CERN)、康卡斯特、電子港灣、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其餘機構。
CouchDB 號稱是「一款徹底擁抱互聯網的數據庫」,它將數據存儲在JSON文檔中,這種文檔能夠經過Web瀏覽器來查詢,而且用JavaScript來處理。它易於使用,在分佈式上網絡上具備高可用性和高擴展性。
Dynamo 是一個經典的分佈式Key-Value 存儲系統,具有去中心化、高可用性、高擴展性的特色。Dynamo在Amazon中獲得了成功的應用,可以跨數據中心部署於上萬個結點上提供服務,它的設計思想也被後續的許多分佈式系統借鑑。
Amazon SimpleDB 是一個用Erlang編寫的高可用的NoSQL數據存儲,可以減輕數據庫管理工做,開發人員只需經過Web服務請求執行數據項的存儲和查詢,Amazon SimpleDB 將負責餘下的工做。做爲一項Web 服務,像Amazon的EC2和S3同樣,是Amazon網絡服務的一部分。
Hypertable 是一個開源、高性能、可伸縮的數據庫,它採用與Google的Bigtable類似的模型。它與Hadoop兼容,性能超高,其用戶包括電子港灣、百度、高朋、Yelp及另外許多互聯網公司。
Terracotta 聲稱其BigMemory技術是「世界上數一數二的內存中數據管理平臺」,支持簡單、可擴展、實時消息,聲稱在190個國家擁有210萬開發人員,全球1000家企業部署了其軟件。
Ignite 是一種高性能、整合式、分佈式的內存中平臺,可用於對大規模數據集執行實時計算和處理,速度比傳統的基於磁盤的技術或閃存技術高出好幾個數量級。該平臺包括數據網格、計算網格、服務網格、流媒體、Hadoop加速、高級集羣、文件系統、消息傳遞、事件和數據結構等功能。
GemFire Pivotal宣佈它將開放其大數據套件關鍵組件的源代碼,其中包括GemFire內存中NoSQL數據庫。它已向Apache軟件基金會遞交了一項提案,以便在「Geode」的名下管理GemFire數據庫的核心引擎。
GridGain 由Apache Ignite驅動的GridGrain提供內存中數據結構,用於迅速處理大數據,還提供基於同一技術的Hadoop加速器。
Logstash 是一個應用程序日誌、事件的傳輸、處理、管理和搜索的平臺。能夠用它來統一對應用程序日誌進行收集管理,提供了Web接口用於查詢和統計。
Scribe Scribe是Facebook開源的日誌收集系統,它可以從各類日誌源上收集日誌,存儲到一箇中央存儲系統(能夠是NFS,分佈式文件系統等)上,以便於進行集中統計分析處理。
Flume 是Cloudera提供的一個高可用的、高可靠的、分佈式的海量日誌採集、聚合和傳輸的系統。Flume支持在日誌系統中定製各種數據發送方,用於收集數據。同時,Flume支持對數據進行簡單處理,並寫入各類數據接受方(可定製)。
RabbitMQ 是一個受歡迎的消息代理系統,一般用於應用程序之間或者程序的不一樣組件之間經過消息來進行集成。RabbitMQ提供可靠的應用消息發送、易於使用、支持全部主流操做系統、支持大量開發者平臺。
ActiveMQ 是Apache出品,號稱「最流行的,最強大」的開源消息集成模式服務器。ActiveMQ特色是速度快,支持多種跨語言的客戶端和協議,其企業集成模式和許多先進的功能易於使用,是一個徹底支持JMS1.1和J2EE 1.4規範的JMS Provider實現。
Kafka 是一種高吞吐量的分佈式發佈訂閱消息系統,它能夠處理消費者規模網站中的全部動做流數據,目前已成爲大數據系統在異步和分佈式消息之間的最佳選擇。
Spark 是一個高速、通用大數據計算處理引擎。擁有Hadoop MapReduce所具備的優勢,但不一樣的是Job的中間輸出結果能夠保存在內存中,從而再也不須要讀寫HDFS,所以Spark能更好地適用於數據挖掘與機器學習等須要迭代的MapReduce的算法。它能夠與Hadoop和Apache Mesos一塊兒使用,也能夠獨立使用
Kinesis 能夠構建用於處理或分析流數據的自定義應用程序,來知足特定需求。Amazon Kinesis Streams 每小時可從數十萬種來源中連續捕獲和存儲數TB數據,如網站點擊流、財務交易、社交媒體源、IT日誌和定位追蹤事件。
Hadoop 是一個開源框架,適合運行在通用硬件,支持用簡單程序模型分佈式處理跨集羣大數據集,支持從單一服務器到上千服務器的水平scale up。Apache的Hadoop項目已幾乎與大數據劃上了等號,它不斷壯大起來,已成爲一個完整的生態系統,擁有衆多開源工具面向高度擴展的分佈式計算。高效、可靠、可伸縮,可以爲你的數據存儲項目提供所需的YARN、HDFS和基礎架構,而且運行主要的大數據服務和應用程序。
Spark Streaming 實現微批處理,目標是很方便的創建可擴展、容錯的流應用,支持Java、Scala和Python,和Spark無縫集成。Spark Streaming能夠讀取數據HDFS,Flume,Kafka,Twitter和ZeroMQ,也能夠讀取自定義數據。
Trident 是對Storm的更高一層的抽象,除了提供一套簡單易用的流數據處理API以外,它以batch(一組tuples)爲單位進行處理,這樣一來,可使得一些處理更簡單和高效。
Flink 於今年躋身Apache頂級開源項目,與HDFS徹底兼容。Flink提供了基於Java和Scala的API,是一個高效、分佈式的通用大數據分析引擎。更主要的是,Flink支持增量迭代計算,使得系統能夠快速地處理數據密集型、迭代的任務。
Samza 出自於LinkedIn,構建在Kafka之上的分佈式流計算框架,是Apache頂級開源項目。可直接利用Kafka和Hadoop YARN提供容錯、進程隔離以及安全、資源管理。
Storm Storm是Twitter開源的一個相似於Hadoop的實時數據處理框架。編程模型簡單,顯著地下降了實時處理的難度,也是當下最人氣的流計算框架之一。與其餘計算框架相比,Storm最大的優勢是毫秒級低延時。
Yahoo S4 (Simple Scalable Streaming System)是一個分佈式流計算平臺,具有通用、分佈式、可擴展的、容錯、可插拔等特色,程序員能夠很容易地開發處理連續無邊界數據流(continuous unbounded streams of data)的應用。它的目標是填補複雜專有系統和麪向批處理開源產品之間的空白,並提供高性能計算平臺來解決併發處理系統的複雜度。
HaLoop 是一個Hadoop MapReduce框架的修改版本,其目標是爲了高效支持 迭代,遞歸數據 分析任務,如PageRank,HITs,K-means,sssp等。
Presto 是一個開源的分佈式SQL查詢引擎,適用於交互式分析查詢,可對250PB以上的數據進行快速地交互式分析。Presto的設計和編寫是爲了解決像Facebook這樣規模的商業數據倉庫的交互式分析和處理速度的問題。Facebook稱Presto的性能比諸如Hive和MapReduce要好上10倍有多。
Drill 於2012年8月份由Apache推出,讓用戶可使用基於SQL的查詢,查詢Hadoop、NoSQL數據庫和雲存儲服務。它可以運行在上千個節點的服務器集羣上,且能在幾秒內處理PB級或者萬億條的數據記錄。它可用於數據挖掘和即席查詢,支持一系列普遍的數據庫,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亞馬遜S三、Azure Blob Storage、谷歌雲存儲和Swift。
Phoenix 是一個Java中間層,可讓開發者在Apache HBase上執行SQL查詢。Phoenix徹底使用Java編寫,而且提供了一個客戶端可嵌入的JDBC驅動。Phoenix查詢引擎會將SQL查詢轉換爲一個或多個HBase scan,並編排執行以生成標準的JDBC結果集。
Pig 是一種編程語言,它簡化了Hadoop常見的工做任務。Pig可加載數據、轉換數據以及存儲最終結果。Pig最大的做用就是爲MapReduce框架實現了一套shell腳本 ,相似咱們一般熟悉的SQL語句。
Hive 是基於Hadoop的一個數據倉庫工具,能夠將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,能夠將sql語句轉換爲MapReduce任務進行運行。 其優勢是學習成本低,能夠經過類SQL語句快速實現簡單的MapReduce統計,沒必要開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
SparkSQL 的前身是Shark,SparkSQL拋棄原有Shark的代碼並汲取了一些優勢,如內存列存儲(In-Memory Columnar Storage)、Hive兼容性等。因爲擺脫了對Hive的依賴性,SparkSQL不管在數據兼容、性能優化、組件擴展方面都獲得了極大的方便。
Stinger 原來叫Tez,是下一代Hive,由Hortonworks主導開發,運行在YARN上的DAG計算框架。某些測試下,Stinger能提高10倍左右的性能,同時會讓Hive支持更多的SQL。
Tajo 目的是在HDFS之上構建一個可靠的、支持關係型數據的分佈式數據倉庫系統,它的重點是提供低延遲、可擴展的ad-hoc查詢和在線數據彙集,以及爲更傳統的ETL提供工具。
Impala Cloudera聲稱,基於SQL的Impala數據庫是「面向Apache Hadoop的領先的開源分析數據庫」。它能夠做爲一款獨立產品來下載,又是Cloudera的商業大數據產品的一部分。Cloudera Impala 能夠直接爲存儲在HDFS或HBase中的Hadoop數據提供快速、交互式的SQL查詢。
Elasticsearch 是一個基於Lucene的搜索服務器。它提供了一個分佈式、支持多用戶的全文搜索引擎,基於RESTful web接口。Elasticsearch是用Java開發的,並做爲Apache許可條款下的開放源碼發佈,是當前流行的企業級搜索引擎。設計用於雲計算中,可以達到實時搜索、穩定、可靠、快速、安裝使用方便。
Solr 基於Apache Lucene,是一種高度可靠、高度擴展的企業搜索平臺。知名用戶包括eHarmony、西爾斯、StubHub、Zappos、百思買、AT&T、Instagram、Netflix、彭博社和Travelocity。
Shark 即Hive on Spark,本質上是經過Hive的HQL解析,把HQL翻譯成Spark上的RDD操做,而後經過Hive的metadata獲取數據庫裏的表信息,實際HDFS上的數據和文件,會由Shark獲取並放到Spark上運算。Shark的特色就是快,徹底兼容Hive,且能夠在shell模式下使用rdd2sql()這樣的API,把HQL獲得的結果集,繼續在scala環境下運算,支持本身編寫簡單的機器學習或簡單分析處理函數,對HQL結果進一步分析計算。
Lucene 基於Java的Lucene能夠很是迅速地執行全文搜索。據官方網站聲稱,它在現代硬件上每小時可以檢索超過150GB的數據,它擁有強大而高效的搜索算法。
Kettle 這是一個ETL工具集,它容許你管理來自不一樣數據庫的數據,經過提供一個圖形化的用戶環境來描述你想作什麼,而不是你想怎麼作。做爲Pentaho的一個重要組成部分,如今在國內項目應用上逐漸增多。
Kylin 是一個開源的分佈式分析引擎,提供了基於Hadoop的超大型數據集(TB/PB級別)的SQL接口以及多維度的OLAP分佈式聯機分析。最初由eBay開發並貢獻至開源社區。它能在亞秒內查詢巨大的Hive表。
Kibana 是一個使用Apache 開源協議的Elasticsearch 分析和搜索儀表板,可做爲Logstash和ElasticSearch日誌分析的 Web 接口,對日誌進行高效的搜索、可視化、分析等各類操做。
Druid 是一個用於大數據實時查詢和分析的高容錯、高性能、分佈式的開源系統,旨在快速處理大規模的數據,並可以實現快速查詢和分析。
KNIME 的全稱是「康斯坦茨信息挖掘工具」(Konstanz Information Miner),是一個開源分析和報表平臺。宣稱「是任何數據科學家完美的工具箱,超過1000個模塊,可運行數百個實例,全面的集成工具,以及先進的算法」。
Zeppelin 是一個提供交互數據分析且基於Web的筆記本。方便你作出可數據驅動的、可交互且可協做的精美文檔,而且支持多種語言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。
Talend Open Studio 是第一家針對的數據集成工具市場的ETL(數據的提取Extract、傳輸Transform、載入Load)開源軟件供應商。Talend的下載量已超過200萬人次,其開源軟件提供了數據整合功能。其用戶包括美國國際集團(AIG)、康卡斯特、電子港灣、通用電氣、三星、Ticketmaster和韋裏遜等企業組織。
Splunk 是機器數據的引擎。使用 Splunk 可收集、索引和利用全部應用程序、服務器和設備(物理、虛擬和雲中)生成的快速移動型計算機數據,從一個位置搜索並分析全部實時和歷史數據。
Pentaho 是世界上最流行的開源商務智能軟件,以工做流爲核心的、強調面向解決方案而非工具組件的、基於java平臺的商業智能(Business Intelligence)套件。包括一個web server平臺和幾個工具軟件:報表、分析、圖表、數據集成、數據挖掘等,能夠說包括了商務智能的方方面面。
Jaspersoft 提供了靈活、可嵌入的商業智能工具,用戶包括衆多企業組織:高朋、冠羣科技、美國農業部、愛立信、時代華納有線電視、奧林匹克鋼鐵、內斯拉斯加大學和通用動力公司。
SpagoBI Spago被市場分析師們稱爲「開源領袖」,它提供商業智能、中間件和質量保證軟件,另外還提供相應的Java EE應用程序開發框架。
Azkaban 是一款基於Java編寫的任務調度系統任務調度,來自LinkedIn公司,用於管理他們的Hadoop批處理工做流。Azkaban根據工做的依賴性進行排序,提供友好的Web用戶界面來維護和跟蹤用戶的工做流程。
YARN 是一種新的Hadoop資源管理器,它是一個通用資源管理系統,可爲上層應用提供統一的資源管理和調度,解決了舊MapReduce框架的性能瓶頸。它的基本思想是把資源管理和做業調度/監控的功能分割到單獨的守護進程。
Mesos 是由加州大學伯克利分校的AMPLab首先開發的一款開源羣集管理軟件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架構。對數據中心而言它就像一個單一的資源池,從物理或虛擬機器中抽離了CPU,內存,存儲以及其它計算資源, 很容易創建和有效運行具有容錯性和彈性的分佈式系統。
Ambari 做爲Hadoop生態系統的一部分,提供了基於Web的直觀界面,可用於配置、管理和監控Hadoop集羣。目前已支持大多數Hadoop組件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
ZooKeeper 是一個分佈式的應用程序協調服務,是Hadoop和Hbase的重要組件。它是一個爲分佈式應用提供一致性服務的工具,讓Hadoop集羣裏面的節點能夠彼此協調。ZooKeeper如今已經成爲了 Apache的頂級項目,爲分佈式系統提供了高效可靠且易於使用的協同服務。
Thrift 在2007年facebook提交Apache基金會將Thrift做爲一個開源項目,對於當時的facebook來講創造thrift是爲了解決facebook系統中各系統間大數據量的傳輸通訊以及系統之間語言環境不一樣須要跨平臺的特性。
Chukwa 是監測大型分佈式系統的一個開源數據採集系統,創建在HDFS/MapReduce框架之上並繼承了Hadoop的可伸縮性和可靠性,能夠收集來自大型分佈式系統的數據,用於監控。它還包括靈活而強大的顯示工具用於監控、分析結果。
Tensorflow是Google開源的一款深度學習工具,使用C++語言開發,上層提供Python API。在開源以後,在工業界和學術界引發了極大的震動,由於TensorFlow曾經是著名的Google Brain計劃中的一部分,Google Brain項目的成功曾經吸引了衆多科學家和研究人員往深度學習這個「坑」裏面跳,這也是當今深度學習如此繁榮的重要緣由。
Theano是老牌、穩定的庫之一。它是深度學習開源工具的鼻祖,由蒙特利爾理工學院時間開發於2008年並將其開源,框架使用Python語言開發。它是深度學習庫的發軔,許多在學術界和工業界有影響力的深度學習框架都構建在Theano之上,並逐步造成了自身的生態系統,這其中就包含了著名的Keras、Lasagne和Blocks。Theano是底層庫,遵循Tensorflow風格。所以不適合深度學習,而更合適數值計算優化。它支持自動函數梯度計算,它有 Python接口 ,集成了Numpy,使得這個庫從一開始就成爲通用深度學習最經常使用的庫之一。
Keras是一個很是高層的庫,工做在Theano或Tensorflow(可配置)之上。此外,Keras強調極簡主義,你能夠用寥寥可數的幾行代碼來構建神經網絡。在 這裏 ,您能夠看到一個Keras代碼示例,與在Tensorflow中實現相同功能所需的代碼相比較。
DSSTNE(Deep Scalable Sparse Tensor Network Engine,DSSTNE)是Amazon開源的一個很是酷的框架,由C++語言實現。但它常常被忽視。爲何?由於,撇開其餘因素不談,它並非爲通常用途設計的。DSSTNE只作一件事,但它作得很好:推薦系統。正如它的官網所言,它不是做爲研究用途,也不是用於測試想法,而是爲了用於生產的框架。
Lasagne是一個工做在Theano之上的庫。它的任務是將深度學習算法的複雜計算予以簡單地抽象化,並提供一個更友好的 Python 接口。這是一個老牌的庫,長久以來,它是一個具有高擴展性的工具。在Ricardo看來,它的發展速度跟不上Keras。它們適用的領域相同,可是,Keras有更好的、更完善的文檔。
Torch是Facebook和Twitter主推的一個特別知名的深度學習框架,Facebook Reseach和DeepMind所使用的框架,正是Torch(DeepMind被Google收購以後才轉向TensorFlow)。出於性能的考慮, 它使用了一種比較小衆的編程語言Lua ,目前在音頻、圖像及視頻處理方面有着大量的應用。在目前深度學習大部分以Python爲編程語言的大環境之下,一個以Lua爲編程語言的框架只有更多的劣勢,而不是優點。Ricardo沒有Lua的使用經驗,他表示,若是他要用Torch的話,就必須先學習Lua語言才能使用Torch。就他我的來講,更傾向於熟悉的Python、Matlab或者C++來實現。
mxnet是支持大多數編程語言的庫之一,它支持Python、R、C++、Julia等編程語言。Ricardo以爲使用R語言的人們會特別喜歡mxnet,由於直到如今,在深度學習的編程語言領域中,Python是衛冕之王。
Ricardo之前並無過多關注mxnet,直到Amazon AWS宣佈將mxnet做爲其 深度學習AMI 中的 參考庫 時,提到了它巨大的水平擴展能力,他纔開始關注。
Ricardo表示他對多GPU的擴展能力有點懷疑,但仍然很願意去了解實驗更多的細節。但目前仍是對mxnet的能力抱有懷疑的態度。
DL4J,全名是Deep Learning for Java。正如其名,它支持Java。Ricardo說,他之因此能接觸到這個庫,是由於它的文檔。當時,他在尋找 限制波爾茲曼機(Restricted Boltzman Machines) 、 自編碼器(Autoencoders) ,在DL4J找到這兩個文檔,文檔寫得很清楚,有理論,也有代碼示例。Ricardo表示D4LJ的文檔真的是一個藝術品,其餘庫的文檔應該向它學習。
DL4J背後的公司Skymind意識到,雖然在深度學習世界中,Python是王,但大部分程序員都是Java起步的,所以,DL4J兼容JVM,也適用於Java、Clojure和Scala。 隨着Scala的潮起潮落,它也被不少 有前途的初創公司 使用。
Cognitive Toolkit,就是以前被你們所熟知的縮略名CNTK,但最近剛更改成如今這個名字,可能利用Microsoft認知服務(Microsoft Cognitive services)的影響力。在發佈的基準測試中,它彷佛是很是強大的工具,支持垂直和水平推移。
到目前爲止,認知工具包彷佛不太流行。關於這個庫,尚未看到有不少相關的博客、網絡示例,或者在Kaggle裏的相關評論。Ricardo表示這看起來有點奇怪,由於這是一個背靠微軟研究的框架,特別強調本身的推移能力。並且這個研究團隊在語音識別上打破了世界紀錄並逼近了人類水平。
你能夠在他們的項目Wiki中的示例,瞭解到認知工具包在Python的語法和Keras很是類似。
Caffe是最老的框架之一,比老牌還要老牌。 Caffe 是加州大學伯克利分校視覺與學習中心(Berkeley Vision and Learning Center ,BVLC)貢獻出來的一套深度學習工具,使用C/C++開發,上層提供Python API。Caffe一樣也在走分佈式路線,例如著名的Caffe On Spark項目。
Hivemall 結合了面向Hive的多種機器學習算法,它包括了不少擴展性很好的算法,可用於數據分類、遞歸、推薦、k最近鄰、異常檢測和特徵哈希等方面的分析應用。
RapidMiner 具備豐富數據挖掘分析和算法功能,經常使用於解決各類的商業關鍵問題,解決方案覆蓋了各個領域,包括汽車、銀行、保險、生命科學、製造業、石油和自然氣、零售業及快消行業、通信業、以及公用事業等各個行業。
Mahout 目的是「爲快速建立可擴展、高性能的機器學習應用程序而打造一個環境」,主要特色是爲可伸縮的算法提供可擴展環境、面向Scala/Spark/H2O/Flink的新穎算法、Samsara(相似R的矢量數學環境),它還包括了用於在MapReduce上進行數據挖掘的衆多算法。
Lumify 歸Altamira科技公司(以國家安全技術而聞名)全部,這是一種開源大數據整合、分析和可視化平臺。 Lingual 是Cascading的高級擴展,爲Hadoop提供了一個ANSI SQL接口極大地簡化了應用程序的開發和集成。Lingual實現了鏈接現有的商業智能(BI)工具,優化了計算成本,加快了基於Hadoop的應用開發速度。 Beam 基於Java提供了統一的數據進程管道開發,而且可以很好地支持Spark和Flink。提供不少在線框架,開發者無需學太多框架。 Cascading 是一個基於Hadoop創建的API,用來建立複雜和容錯數據處理工做流。它抽象了集羣拓撲結構和配置,使得不用考慮背後的MapReduce,就能快速開發複雜的分佈式應用。 HPCC 做爲Hadoop以外的一種選擇,是一個利用集羣服務器進行大數據分析的系統,HPCC在LexisNexis內部使用多年,是一個成熟可靠的系統,包含一系列的工具、一個稱爲ECL的高級編程語言、以及相關的數據倉庫,擴展性超強。