史上最全的大數據學習資源(Awesome Big Data)

爲了讓你們更好地學習交流,過往記憶大數據花了一個週末的時間把 Awesome Big Data 裏近 600 個大數據相關的調度、存儲、計算、數據庫以及可視化等介紹所有翻譯了一遍,供你們學習交流。html

關係型數據庫管理系統

  • MySQL 世界上最流行的開源數據庫。
  • PostgreSQL 世界上最早進的開源數據庫。
  • Oracle Database - 對象關係數據庫管理系統。
  • Teradata - 高性能 MPP 數據倉庫平臺。

框架

  • Bistro - 用於批處理和流分析的通用數據處理引擎。它基於一種新的數據模型,該模型經過函數來表示數據,並經過列操做來處理數據,而不只僅使用 MapReduce 或 SQL 等傳統方法來設置操做。
  • IBM Streams - 分佈式處理和實時分析平臺。能夠和大數據生態系統中的許多流行技術 (Kafka、HDFS、Spark等) 集成
  • Apache Hadoop -分佈式處理框架。集成了 MapReduce(並行處理)、YARN(做業調度)和HDFS(分佈式文件系統)。
  • Tigon - 高吞吐的實時流處理框架。
  • Pachyderm - Pachyderm 是一個基於 Docker 和 Kubernetes 的數據存儲平臺,能夠用在重複的數據處理和分析場景。
  • Polyaxon - 一個可複製、可擴展的機器學習和深度學習平臺。

分佈式編程

  • AddThis Hydra - 分佈式數據處理和存儲系統,最初由 AddThis 開發。
  • AMPLab SIMR - 在 Hadoop MapReduce v1 上運行 Spark。
  • Apache APEX - 用於大數據流和批處理的統一企業平臺。
  • Apache Beam - 用於定義和執行數據處理工做流的統一模型和一組特定於語言的sdk。
  • Apache Crunch - 一個簡單的Java API,用於處理 Join 和數據聚合之類的任務,這些任務在普通 MapReduce 上實現起來很繁瑣。
  • Apache DataFu - 由 LinkedIn 爲 Hadoop 和 Pig 開發的用戶定義函數的集合。
  • Apache Flink - 分佈式處理引擎框架,用於在無界和有界數據流上進行有狀態計算。
  • Apache Gearpump -基於 Akka 的實時大數據流引擎。
  • Apache Gora - 內存數據模型和持久性框架。
  • Apache Hama - BSP(Bulk Synchronous Parallel)計算框架。
  • Apache MapReduce -在集羣上使用並行分佈式算法處理大型數據集的編程模型。
  • Apache Pig - 用於表達 Hadoop 數據分析程序的高級語言。
  • Apache REEF - 用來簡化和統一低層大數據系統的保留性評估執行框架
  • Apache S4 - 一個常規用途的、分佈式的、可伸縮的、容錯的、可插入式的平臺,主要用於處理連續的數據流
  • Apache Spark - 快速、通用的大規模數據處理引擎
  • Apache Spark Streaming - 實時流處理引擎,屬於 Spark 的一部分.
  • Apache Storm - Twitter 開發的,可在 YARN 上進行流處理的框架。
  • Apache Samza -基於 Kafka 和 YARN 的流處理的框架
  • Apache Tez - 基於 YARN 的,可執行復雜 DAG (有向無環圖)任務的應用程序框架。
  • Apache Twill - YARN 上的抽象,減小了開發分佈式應用程序的複雜性。
  • Baidu Bigflow - 一個容許編寫分佈式計算程序的接口,它提供了許多簡單、靈活、強大的 API 來輕鬆處理任何規模的數據。
  • Cascalog - 數據處理和查詢庫。
  • Cheetah - MapReduce 之上的高性能,用戶自定義數據倉庫。
  • Concurrent Cascading - Hadoop 上的數據管理/分析框架。
  • Damballa Parkour - 爲 Clojure 開發的 MapReduce 庫。
  • Datasalt Pangool - 可替代 MapReduce 範式.
  • DataTorrent StrAM -實時計算引擎,旨在以一種儘量暢通的方式支持分佈式、異步、實時的內存大數據計算,同時最小化開銷和對性能的影響。
  • Facebook Corona - Hadoop 的加強,能夠消除單點故障。
  • Facebook Peregrine - Map Reduce 框架.
  • Facebook Scuba - 分佈式內存數據存儲。
  • Google Dataflow - 建立數據管道來幫助咱們攝取、轉換和分析數據。
  • Google MapReduce - map reduce 框架.
  • Google MillWheel - 容錯流處理框架。
  • IBM Streams - 用於分佈式處理和實時分析的平臺。 提供開箱即用的高級分析工具包,如地理空間,時間序列等。
  • JAQL - 聲明式編程語言,用於處理結構化、半結構化和非結構化數據。
  • Kite - 一組庫、工具、示例和文檔,重點在於簡化在 Hadoop 生態系統之上構建系統的過程。
  • Metamarkets Druid - 用於實時分析大型數據集的框架。
  • Netflix PigPen - 是 Clojure 語音的 Map-Reduce,能夠編譯到 Apache Pig 或者 Cascading 中
  • Nokia Disco - 諾基亞開發的 MapReduce 框架。
  • Onyx - 雲的分佈式計算。
  • Pinterest Pinlater - 異步做業執行系統。
  • Pydoop - 用 Python 編寫,並採用 MapReduce 和 HDFS 技術對 Hadoop 進行擴展的 API。
  • Ray - 用於構建和運行分佈式應用程序的快速而簡單的框架。
  • Rackerlabs Blueflood - 多租戶分佈式度量處理系統
  • Skale - NodeJS 上的高性能分佈式數據處理框架。
  • Stratosphere - 通用集羣計算框架。
  • Streamdrill - streamdrill 在計算不一樣時間窗口上的事件流活動很是有用,並找出最活躍的時間窗口。
  • streamsx.topology - 用於在 Java,Python 或 Scala 中構建 IBM Streams 應用程序的庫。
  • Tuktu - 易於使用的批處理和流式計算平臺,可使用 Scala,Akka 和 Play 構建!
  • Twitter Heron - 由 Twitter 開發的一個實時、分佈式、容錯的流處理引擎,主要用於代替 Storm。
  • Twitter Scalding - 用於 Map Reduce 做業的 Scala 庫,基於 Cascading 構建。
  • Twitter Summingbird - Summingbird 是一個類庫,它容許咱們編寫看起來像原生 Scala 或 Java 集合轉換的 MapReduce 程序,並在許多着名的分佈式 MapReduce 平臺上執行,包括 Storm 和 Scalding,由 Twitter 開發。
  • Twitter TSAR - Twitter 開發的時間序列聚合器
  • Wallaroo - 超快彈性數據處理引擎,可使有狀態、分析、流處理和事件驅動的 AI 應用程序可以快速投入生產,而無需考慮規模。它爲開發人員提供了幾種語言的 api 來實現他們的自定義業務邏輯。

分佈式文件系統

  • Ambry - 分佈式對象存儲,支持存儲數萬億個小的不可變對象或者數十億個大對象。
  • Apache HDFS - 提供對應用程序數據的高吞吐量訪問的分佈式文件系統。
  • Apache Kudu - Hadoop 的存儲層可實現對數據的快速分析。
  • BeeGFS - 以前稱爲 FhGFS,是一種並行分佈式文件系統。
  • Ceph Filesystem - 一個支持POSIX接口的文件系統
  • Disco DDFS - 分佈式文件系統。
  • Facebook Haystack - 對象存儲系統。
  • Google Colossus - 分佈式文件系統 (GFS2).
  • Google GFS - 分佈式文件系統。
  • Google Megastore - 可擴展、高可用的存儲。
  • GridGain - GGFS, Hadoop 兼容的內存文件系統。
  • Lustre file system - 高性能分佈式文件系統。
  • Microsoft Azure Data Lake Store - Azure 上兼容 HDFS 的存儲
  • Quantcast File System QFS - 開源分佈式文件系統。
  • Red Hat GlusterFS - 橫向擴展網絡附加的存儲文件系統。
  • Seaweed-FS -簡單且高度可伸縮的分佈式文件系統。
  • Alluxio - 開源的基於內存的分佈式存儲系統。
  • Tahoe-LAFS - 去中心化的雲存儲系統。
  • Baidu File System - 分佈式文件系統。

分佈式索引

  • Pilosa 開源的分佈式位圖索引,極大地加速了跨多個大規模數據集的查詢。

文檔數據模型

  • Actian Versant - 面向對象的商業數據庫管理系統。
  • Crate Data - 是一個開源的大規模可擴展數據存儲,它不須要任何管理。
  • Facebook Apollo - Facebook 的相似於 Paxos 的 NoSQL 數據庫。
  • jumboDB - 基於 Hadoop 的面向文檔的數據存儲。
  • LinkedIn Espresso - 可水平擴展的面向文檔 NoSQL 數據存儲。
  • MarkLogic - 模式無關的企業 NoSQL 數據庫技術。
  • Microsoft Azure DocumentDB - NoSQL 雲數據庫服務,支持 MongoDB 協議
  • MongoDB - 面向文檔的數據庫系統。
  • RavenDB - 支持事務的開源文檔數據庫。
  • RethinkDB - 支持表 join 和 group by 等查詢的文檔數據庫。

Key Map 數據模型

**注意**: 業界存在一些術語混淆,存在兩種不一樣的東西被稱爲「列式數據庫」。這裏列出的一些是圍繞「鍵 - 映射」數據模型構建的分佈式持久性數據庫:全部數據都有一個(多是組合的)鍵,鍵值對的映射與之關聯。在某些系統中,多個這樣的值映射能夠與一個鍵關聯,這些映射稱爲「列族」(值映射鍵稱爲「列」)。前端

另外一種也稱爲「列式數據庫」的技術,特色是它在磁盤或內存中如何存儲數據。這些系統將全部行的相同列值數據存儲在一塊兒。所以,須要作更多的工做來得到給定鍵的全部列,可是須要更少的工做來得到給定列的全部值。react

前一種在這裏稱爲「鍵映射數據模型」。這些和 Key-value Data Model 存儲之間的界限至關模糊。git

後者更多地是關於存儲格式而不是數據模型,這些數據庫咱們把它歸到 Columnar Databases 裏面去了。github

你能夠到 Prof. Daniel Abadi 的博文: 瞭解更多關於如何區分這兩存儲系統的討論。.web

  • Apache Accumulo - 構建在 Hadoop 之上的分佈式鍵值存儲系統。
  • Apache Cassandra - 受 BigTable 啓發的、面向列的分佈式數據存儲。
  • Apache HBase - 受 BigTable 啓發的、面向列的分佈式數據存儲。
  • Baidu Tera - 受 BigTable 啓發的一種大型分佈式表格存儲系統,具備高性能、可伸縮等存儲特色,最初的設計是爲了管理萬億量級的超鏈和網頁信息。
  • Facebook HydraBase - 由 Facebook 開發的 HBase 演化版本。
  • Google BigTable - 面向列的分佈式數據存儲。
  • Google Cloud Datastore - 一個徹底託管的無模式數據庫,用於在 BigTable 上存儲非關係數據。
  • Hypertable - 受 BigTable 啓發的、面向列的分佈式數據存儲。
  • InfiniDB - 經過MySQL接口訪問,並使用大規模並行處理來並行化查詢。
  • Tephra - 使 HBase 支持事務
  • Twitter Manhattan - Twitter 開發的實時、多租戶分佈式數據庫。
  • ScyllaDB - 使用 C++ 編寫的面向列的分佈式數據存儲,徹底兼容 Apache Cassandra。

Key-value 數據模型

  • Aerospike - 一個分佈式,高可用的 K-V 類型的 NOSQL 數據庫。提供相似傳統數據庫的ACID操做。
  • Amazon DynamoDB - 分佈式 key/value 存儲, Dynamo 論文的實現。
  • Badger - 一個快速、簡單、高效和持久的鍵值存儲,是用 Go 編寫。
  • Bolt - 可在 Go 語言中使用的嵌入式鍵值數據庫.
  • BTDB - .Net 中的 Key Value 數據庫,包含 Object DB Layer, RPC, dynamic IL 等等。
  • BuntDB - Go 語言的一個快速,可嵌入,基於內存的鍵/值數據庫,支持自定義索引和地理空間。
  • Edis - 協議兼容 Redis 的數據庫,可替代 Redis。
  • ElephantDB - 專門用於從 Hadoop 導出數據的分佈式數據庫。
  • EventStore - 分佈式時間序列數據庫。
  • GridDB - 一款高度可擴展的 NoSQL 數據庫,很是適用於物聯網和大數據領域,還具備高可靠性和高性能這些特性。
  • HyperDex - 可擴展的下一代鍵值和文檔存儲,具備多種功能,包括一致性,容錯性和高性能。
  • Ignite - 分佈式內存網格數據庫,具備可持久化,分佈式事務,分佈式計算等特色,此外還支持豐富的鍵值存儲以及SQL語法。
  • LinkedIn Krati - 一個簡單的持久化數據存儲,具備很是低的延遲和高吞吐量。
  • Linkedin Voldemort - 分佈式 key/value 存儲系統。
  • Oracle NoSQL Database - Oracle 公司開發的分佈式 key/value 存儲系統。.
  • Redis -一個開源(BSD許可)的,內存中的數據結構存儲系統,它能夠用做數據庫、緩存和消息中間件。
  • Riak - 去中心化的數據庫存儲。
  • Storehaus -Twitter 開發的用於異步 key/value 存儲的類庫。
  • SummitDB - 基於內存的 NoSQL 鍵/值數據庫,具備磁盤持久性,並支持 Raft 一致性算法。
  • Tarantool - 一個高效的 NoSQL 數據庫和一個 Lua 應用服務器。
  • TiKV - 一個基於 Rust 的分佈式鍵值數據庫,並受谷歌 Spanner 和 HBase 的啓發。
  • Tile38 - 具備空間索引和實時地理圍欄的地理位置數據庫。支持各類對象類型,包括緯度/經度點,邊界框,XYZ切片,Geohashes和GeoJSON
  • TreodeDB - key-value 存儲,支持數據副本、分片以及提供原子多行寫。

圖數據模型

  • AgensGraph - 基於 PostgreSQL 的新一代多模型圖數據庫。
  • Apache Giraph - 一個可伸縮的分佈式迭代圖處理系統, 基於 Hadoop 平臺,靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。
  • Apache Spark Bagel - Bagel 是谷歌 Pregel 圖處理框架的 Spark 實現,支持基本的圖形計算、組合器(combiners)和聚合器(aggregators)。目前已經被 GraphX 替代,在 Spark 2.0.0 版本已經被移除。
  • ArangoDB - 多模型分佈式數據庫。
  • DGraph - 一個可伸縮的、分佈式的、低延遲的、高吞吐量的圖數據庫,旨在提供谷歌生產級別的規模和吞吐量,具備足夠低的延遲,能夠在 TB 級的結構化數據上爲實時用戶查詢提供服務。
  • EliasDB - 一個輕量級的基於圖的數據庫,不須要任何第三方庫。
  • Facebook TAO - TAO 是 facebook 普遍使用的分佈式數據存儲,用於存儲和服務社交圖。
  • GCHQ Gaffer - Gaffer 是 GCHQ(英國政府通信總部)於2015年12月14日在 GitHub 上公佈的第一個開源項目,Gaffer 是個大規模圖形數據庫,能夠方便存儲大規模圖的框架,節點和邊界有數據統計,好比計數,直方圖和草圖。這些統計數據是時間窗口的節點和邊界屬性,能夠根據時間動態更新。
  • Google Cayley - 開源的圖數據庫。
  • Google Pregel - 圖處理框架。
  • GraphLab PowerGraph - 包含 C++ 實現的 GraphLab API以及一組基於GraphLab API 構建的高性能機器學習和數據挖掘工具包。
  • GraphX - 一個分佈式圖處理框架,它是基於 Spark 平臺提供對圖計算和圖挖掘簡潔易用的而豐富的接口,極大的方便了對分佈式圖處理的需求。
  • Gremlin - 圖遍歷語言。
  • Infovore - 一個 map/reduce 框架,用來處理大量的 RDF 數據集,注入 Freebase 和 DBpedia,基於 Hadoop 構建。
  • Intel GraphBuilder - 基於 Hadoop 構造的大型圖工具。
  • JanusGraph - 開源分佈式圖形數據庫,後端存儲能夠選擇多種組件包括 Bigtable、HBase、Cassandra等,同時索引後端也能夠選擇不少種,包括 Elasticsearch、Solr、Lucene 等。
  • MapGraph - 一個高級的 API 用於快速開發基於 GPU 的高性能圖形分析應用。
  • Microsoft Graph Engine - 一個基於內存的分佈式大規模圖數據處理引擎,可以幫助用戶更方便地構建實時查詢應用和高吞吐量離線分析平臺。在此以前,它在學術界更廣爲人之的名稱是 Trinity。
  • Neo4j - 一個高性能的 NOSQL圖數據庫,徹底由 Java 實現。
  • OrientDB - 文檔圖形數據庫。
  • Phoebus - 大型圖處理框架。
  • Titan - 創建在 Cassandra 之上的分佈式圖數據庫。
  • Twitter FlockDB - 分佈式圖數據庫。
  • NodeXL - Microsoft® Excel® 2007, 2010, 2013 and 2016 免費開源的模板,能夠很容易的探索網絡圖。

列式數據庫

**注意** 請讀一下 Key-Map Data Model 章節的說明。redis

  • Columnar Storage - 解釋什麼是列式存儲,以及咱們何時須要它。
  • Actian Vector - 面向列的分析數據庫。
  • C-Store - 面向列的 DBMS.
  • ClickHouse - 一個開源的列式數據庫(DBMS),主要用於在線分析處理查詢(OLAP)。
  • EventQL - 爲大規模事件收集和分析而構建的分佈式、面向列的數據庫。
  • MonetDB - 列式存儲數據庫。
  • Parquet - 靈感來自於2010年 Google 發表的 Dremel 論文,是一種列式存儲格式,與語言、平臺無關,而且不須要和任何一種數據處理框架綁定。
  • Pivotal Greenplum - 爲特定目的而構建的專用分析數據倉庫,它提供了一個列式存儲引擎和一個傳統的基於行的引擎。
  • Vertica - 設計用於管理大量快速增加的數據,提供很是快的查詢性能。
  • SQream DB - 以色列大數據公司開發的跑在 GPU 上的大數據數據庫,設計用於分析和數據倉庫,使用 ANSI-92 SQL,適用於10TB到1PB的數據集。
  • Google BigQuery - Google 推出的一項 Web 服務,該服務讓開發者可使用 Google 的架構來運行 SQL 語句對超級大的數據庫進行操做。
  • Amazon Redshift - 一個支持 SQL 查詢的、快速、可擴展的列式存儲數據庫,它支持 PB 級的數量查詢,是適用於企業級的數據倉庫。
  • IndexR - 一個開源的大數據存儲格式,於 2017 年 1 月初正式開源,旨在經過添加索引、優化編碼方式、提升 IO 效率等各類優化方式來提升計算層和存儲層的數據交換效率,從而提高總體性能。
  • LocustDB - 一個大規模並行且高性能的分析數據庫 (analytics database),可快速處理你的全部數據,目前處於實驗性階段。

NewSQL 數據庫

  • Actian Ingres - 商業支持,開源 SQL 關係數據庫管理系統。
  • ActorDB - 分佈式的 SQL 數據庫,可實現可伸縮的 K/V 存儲系統。ActorDB 基於 Actor 計算模型,與傳統的集中式數據庫不一樣,ActorDB 由任意數量的被成爲 actor 的獨立和併發 SQL 數據庫組成。
  • Amazon RedShift -基於 PostgreSQL 的數據倉庫服務。
  • BayesDB - 一個貝葉斯數據庫,內建貝葉斯查詢語言 BQL,用戶無需統計方面知識便可解決一些基本的科學數據問題
  • Bedrock - 構建在 SQLite 之上的簡單、模塊化、網絡化、分佈式事務層。
  • CitusDB - 經過分片和副本擴展 PostgreSQL。
  • Cockroach - 可伸縮、地理複製、事務性數據存儲。
  • Comdb2 - 一個基於樂觀併發控制技術的集羣 RDBMS。
  • Datomic - 分佈式數據庫旨在支持可伸縮、靈活和智能的應用程序。
  • FoundationDB - 分佈式數據庫,受 F1 啓發。
  • Google F1 - 構建在 Spanner 之上的分佈式 SQL 數據庫。
  • Google Spanner - Google的全球級的分佈式數據庫,具備可擴展,多版本,全球分佈式、同步複製等特性。
  • H-Store - 一個實驗性的數據庫管理系統。它專爲駐線交易處理應用程序而設計。
  • Haeinsa - Haeinsa 是 HBase 可線性擴展的多行,多表事務庫。使用兩階段鎖定和樂觀併發控制來實現事務。 事務的隔離級別是可序列化的。基於 Percolator 實現。
  • HandlerSocket - MySQL/MariaDB 的 NoSQL 插件。
  • InfiniSQL - 無限擴展的 RDBMS.
  • Map-D - GPU 內存數據庫,大數據分析可視化平臺.
  • MemSQL - 一款內存數據庫,它經過將數據存在內存中,將 SQL 語句預編譯爲 C++ 而得到極速執行效率。
  • NuoDB - 符合 SQL/ACID 的分佈式數據庫。
  • Oracle TimesTen in-Memory Database - 基於內存的關係數據庫管理系統,具備持久性和可恢復性。
  • Pivotal GemFire XD - 低延遲、基於內存、分佈式 SQL 數據存儲。爲內存表數據提供 SQL 接口,可在 HDFS 中持久存儲。
  • SAP HANA - 基於內存、面向列、關係數據庫管理系統。
  • SenseiDB - 分佈式、實時、半結構化的數據庫。
  • Sky - 用於靈活、高性能的行爲數據分析的數據庫。
  • SymmetricDS - 用於文件和數據庫同步的開源軟件。
  • TiDB - 一款定位於在線事務處理/在線分析處理的融合型數據庫產品,實現了一鍵水平伸縮,強一致性的多副本數據安全,分佈式事務,實時 OLAP 等重要特性。受 Google F1 啓發。
  • VoltDB - 聲稱是最快的內存數據庫.

時間序列數據庫

  • Axibase Time Series Database - 基於 HBase 的時間序列數據庫,內置可視化、規則引擎和 SQL 支持。
  • Chronix - 一種時間序列存儲器,用於存儲高度壓縮的時間序列,並支持快速訪問數據。
  • Cube - 使用 MongoDB 來存儲時間序列數據。
  • Heroic - 基於 Cassandra 和 Elasticsearch 的可擴展時間序列數據庫。
  • InfluxDB - 分佈式時間序列數據庫。
  • IronDB - 可擴展、通用時間序列數據庫。
  • Kairosdb - 和 OpenTSDB 相似,可是構建在 Cassandra 之上。
  • M3DB - 一個分佈式時間序列數據庫,可用於長期存儲實時指標。
  • Newts -基於 Apache Cassandra 的時間序列數據庫。
  • OpenTSDB -構建在 HBase 之上的分佈式時間序列數據庫。
  • Prometheus - 時間序列數據庫和服務監控系統。
  • Beringei - Facebook 的內存時間序列數據庫。
  • TrailDB - 用於存儲和查詢一系列事件的有效工具。
  • Druid MetaMarket 公司研發,專爲海量數據集上的作高性能 OLAP (OnLine Analysis Processing)而設計的數據存儲和分析系統
  • Riak-TS Riak TS 是惟一專爲物聯網和時間序列數據優化的企業級 NoSQL 時間序列數據庫。
  • Akumuli 一個數值型時間序列數據庫,能夠存儲、處理時序列數據
  • Rhombus Cassandra的時間序列對象存儲。
  • Dalmatiner DB 快速分佈式度量數據庫
  • Blueflood 一種用於攝取和處理時間序列數據的分佈式系統。
  • Timely 是一個時間序列數據庫應用程序,它提供了基於 Accumulo 和 Grafana 的對時間序列數據的安全訪問。
  • SiriDB 具備集羣功能的高擴展性、健壯性和快速的開源時間序列數據庫。
  • Thanos - Thanos 是一組組件,可使用多個 Prometheus 部署建立具備無限存儲容量的高可用度量系統。
  • VictoriaMetrics - 與 Prometheus 兼容的快速,可擴展的開源 TSDB,包括單節點和羣集版本。

類 SQL 處理系統

  • Actian SQL for Hadoop - 高性能交互式 SQL,能夠利用它訪問 Hadoop 上的數據。
  • Apache Drill - 一個低延遲的分佈式海量數據交互式查詢引擎,使用 ANSI SQL 兼容語法,本質上是一個分佈式的 MPP 查詢層。目的在於支持更普遍的數據源,數據格式,以及查詢語言。受 Google的Dremel 啓發。
  • Apache HCatalog - Hadoop的表存儲管理工具。
  • Apache Hive - 基於 Hadoop 的一個數據倉庫工具,能夠將結構化數據文件映射爲一張數據庫表,並提供類 SQL 查詢功能.
  • Apache Calcite - 一款開源 SQL 解析工具, 能夠將各類 SQL 語句解析成抽象語法術AST(Abstract Syntax Tree), 以後經過操做 AST 就能夠把 SQL 中所要表達的算法與關係體如今具體代碼之中。
  • Apache Phoenix - 構建在 HBase 之上的關係型數據庫層,能夠對 HBase 中的數據進行低延遲訪問。
  • Aster Database - 類 SQL 分析處理。
  • Cloudera Impala - 實時交互 SQL 大數據查詢工具,受 Dremel 啓發。
  • Concurrent Lingual - Cascading 上的 SQL 查詢語言。
  • Datasalt Splout SQL - 針對大數據集的完整 SQL 查詢引擎。
  • Facebook PrestoDB -分佈式 SQL 查詢引擎。
  • Google BigQuery - Google 推出的一項 Web 服務,該服務讓開發者可使用 Google 的架構來運行 SQL 語句對超級大的數據庫進行操做,是 Dremel 的實現。
  • PipelineDB - 一個開源的關係數據庫,它能夠在實時流數據上執行 SQL 查詢,並將結果增量地存儲在表中。
  • Pivotal HDB - Hadoop 上的類 SQL 數據倉庫系統。/li>
  • - RainstorDB - 用於存儲 PB 級結構化和半結構化數據量的數據庫。 - Spark Catalyst - Apache Spark 的查詢優化框架。 - SparkSQL - 使用 Spark 操做結構化的數據。 - Splice Machine - 兼具了 SQL 和 NoSQL 的各自優點,且能對操做型和分析型應用進行實時處理,具備 ACID 特性。 - Stinger - 由 Hortonworks 開發的一個完全提高 Hive 效率的工具 - Tajo - Hadoop 之上的分佈式數據倉庫系統。 - Trafodion - 由惠普開發並開源的基於 Hadoop 平臺的事務數據庫引擎。提供了一個基於 Hadoop 平臺的交易型 SQL 引擎,是一個擅長處理交易型負載的 Hadoop 大數據解決方案。

    數據攝取

    • Amazon Kinesis - 一種在 AWS 上流式處理數據的平臺,讓您能夠輕鬆地加載和分析流數據,同時還可以讓您根據具體需求來構建自定義流數據應用程序。
    • Amazon Web Services Glue - 一項徹底託管的提取、轉換和加載 (ETL) 服務,讓用戶可以輕鬆準備和加載數據進行分析。
    • Apache Chukwa - 數據採集系統。
    • Apache Flume - 一個分佈式的、可靠的、易用的系統,能夠有效地未來自不少不一樣源系統的大量日誌數據收集、彙總或者轉移到一個數據中心存儲。
    • Apache Kafka - 分佈式發佈訂閱消息系統。
    • Apache NiFi - 一個易用、強大、可靠的數據處理與分發系統
    • Apache Sqoop - 是一款開源的工具,主要用於在 Hadoop/Hive 與傳統的數據庫(Mysql、Oracle...)間進行數據的傳遞
    • Cloudera Morphlines - 幫助將 ETL 的數據加載到 Solr、HBase 或 Hadoop 中的框架。
    • Embulk - 開源的批量數據加載器,幫助在各類數據庫、存儲、文件格式和雲服務之間傳輸數據。
    • Facebook Scribe - 流日誌數據聚合器。
    • Fluentd - 用於收集事件和日誌的工具。
    • Google Photon - 地理分佈式系統,用於實時鏈接多個連續流動的數據流,具備高可伸縮性和低延遲。
    • Heka - 開源流處理系統。
    • HIHO - 用於將不一樣數據源的數據和 Hadoop 進行鏈接的框架。
    • Kestrel - 分佈式消息隊列系統。
    • LinkedIn Databus - LinkedIn 開源的一個低延遲、可靠的、支持事務的、保持一致性的數據變動抓取系統。
    • LinkedIn Kamikaze - 一種實用工具包,對 document lists 提供一系列的實現。
    • LinkedIn White Elephant - 一個 Hadoop 日誌收集器和展現器,它提供了用戶角度的Hadoop集羣可視化。
    • Logstash - 一個開源的日誌收集管理工具,能夠採集來自不一樣數據源的數據,並對數據進行處理後輸出到多種輸出源。
    • Netflix Suro - Netflix 開源的一款工具,它可以在數據被髮送到不一樣的數據平臺(如Hadoop、Elasticsearch)以前,收集不一樣應用服務器上的事件數據。
    • Pinterest Secor - 實現 Kafka 日誌持久性的服務
    • Linkedin Gobblin -一套分佈式數據集成框架,旨在簡化大數據集成工做當中的各種常見任務,具體包括數據流與批量生態系統的提取、複製、組織與生命週期管理。
    • Skizze - 一種機率數據結構服務和存儲。
    • StreamSets Data Collector - 使用一個簡單的 IDE 來連續大數據攝取基礎設施。
    • Yahoo Pulsar - 由 Yahoo 開發並開源的一個企業級的發佈訂閱消息系統。
    • Alooma - 實時的數據管道服務,支持將 MySQL 等數據源的數據移動到數據倉庫中。

    服務編程

    • Akka Toolkit - 基於 Actor 模型,提供了一個用於構建可擴展的(Scalable)、彈性的(Resilient)、快速響應的(Responsive)應用程序的平臺。
    • Apache Avro - 數據序列化系統。
    • Apache Curator - 爲 Apache ZooKeeper 開發的類庫。
    • Apache Karaf - Apache 旗下的一個開源項目,同時也是一個基於 OSGi 的運行環境,Karaf 提供了一個輕量級的 OSGi 容器,能夠用於部署各類組件,應用程序。
    • Apache Thrift - Facebook 開源的跨語言的 RPC 通訊框架
    • Apache Zookeeper - 一個分佈式應用程序協調服務。
    • Google Chubby - 一個分佈式鎖服務,Chubby 底層一致性實現就是以 Paxos 爲基礎的
    • Hydrosphere Mist - 一個將 Apache Spark 分析任務和機器學習模型轉換爲實時、批處理或反應性 web 服務的服務。
    • Linkedin Norbert - 集羣管理系統。
    • Mara - 一個輕量級的自定義ETL框架。
    • OpenMPI - 消息傳遞框架。
    • Serf - 去中心化的服務發現和編排解決方案。
    • Spotify Luigi - 用於構建批處理做業的複雜管道的 Python 包。它處理依賴項解析、工做流管理、可視化、處理故障、命令行集成等等。
    • Spring XD - 用於數據攝取、實時分析、批處理和數據導出的分佈式和可擴展系統。
    • Twitter Elephant Bird - 用於處理 lzop 壓縮數據的庫。
    • Twitter Finagle - JVM的異步網絡堆棧。

    調度

    • Apache Airflow - Airbnb 開源的一個用 Python 編寫的工做流管理平臺。
    • Apache Aurora - 長期運行服務和計劃做業的 Mesos 框架。
    • Apache Falcon - 數據管理框架。
    • Apache Oozie - 工做流做業調度器。
    • Azure Data Factory - 可大規模簡化 ETL 的混合數據集成服務
    • Chronos - 分佈式和容錯調度器。
    • Linkedin Azkaban - 批處理工做流做業調度程序。
    • Schedoscope - 用於 Hadoop 做業的敏捷調度 Scala DSL。
    • Sparrow - 調度平臺。

    機器學習

    • Azure ML Studio - 基於雲的 R、Python 機器學習平臺。
    • brain - JavaScript 中的神經網絡。
    • Cloudera Oryx - 實時大規模機器學習。
    • Concurrent Pattern - Cascading 上的機器學習框架。
    • convnetjs - Javascript 中的深刻學習,能夠在瀏覽器中訓練卷積神經網絡(或普通神經網絡)。
    • DataVec - 一個用於 Java 和 Scala 深度學習的矢量化和數據預處理庫。Deeplearning4j生態系統的一部分。
    • Deeplearning4j - 美國 AI 創業公司 Skymind 開源並維護的一個基於 Java/JVM 的深度學習框架,可以使用CPU或GPU運行。
    • Decider - Ruby中靈活且可擴展的機器學習。
    • ENCOG - 支持多種高級算法的機器學習框架,以及支持規範化和處理數據的類。
    • etcML - 在線免費文本分析工具是由美國的斯坦福大學計算機教授開發的基於成熟的文本分析引擎
    • Etsy Conjecture - Scalding 中可擴展的機器學習。
    • Feast - 用於管理、發現和訪問機器學習特性的特性存儲庫。Feast 爲模型訓練和模型服務提供了一致的特徵數據視圖。
    • GraphLab Create - Python 中的機器學習平臺,包含大量 ML 工具包、數據工程和部署工具。
    • H2O - 使用 Hadoop、R 和 Python 進行統計、機器學習和數學運行時。
    • Keras - 一個高層神經網絡API,Keras 由純 Python 編寫而成並基 Tensorflow、Theano 以及 CNTK 後端。受 Torch 啓發。
    • Lambdo 是一個工做流引擎,經過將一個分析管道(i)特徵工程和機器學習(ii)模型訓練和預測(iii)結合起來,經過用戶定義(Python)函數實現表填充和列評估,大大簡化了數據處理和分析。
    • Mahout - 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地建立智能應用程序。
    • MLbase - 是Spark生態圈的一部分,專一於機器學習,包含三個組件:MLlib、MLI、ML Optimizer。
    • MLPNeuralNet - 一個針對 iOS 和 Mac OS 系統的快速多層感知神經網絡庫,可經過已訓練的神經網絡預測新實例。
    • MOA - 實時進行大數據流挖掘和大規模機器學習。
    • MonkeyLearn - 讓文本挖掘變得很容易,能夠從文本中提取和分類數據。
    • ND4J - JVM 的矩陣庫,能夠認爲是 Java 中的 Numpy。
    • nupic - 一個實現了HTM學習算法的機器智能平臺。
    • PredictionIO - 面向開發人員和數據科學家的開源機器學習服務,構建在 Hadoop, Mahout 和 Cascading 之上。
    • RL4J - 一個與 Deeplearning4j 集成的強化學習框架
    • SAMOA - 分佈式流數據機器學習框架。
    • scikit-learn - 專門面向機器學習的 Python 開源框架,實現了各類成熟的算法。
    • Spark MLlib - 使用 Spark 實現一些常見的機器學習算法和實用程序,包括分類、迴歸、聚類、協同過濾、降維以及底層優化,
    • Sibyl - 谷歌大型機器學習系統.
    • TensorFlow - 一個採用數據流圖(data flow graphs),用於數值計算的開源軟件庫。
    • Theano - 蒙特利爾大學支持的以 Python 爲核心的機器學習類庫。
    • Torch - 是一個基於 BSD License 的開源的機器學習的框架
    • Velox - 服務於機器學習預測的系統。
    • Vowpal Wabbit - 由微軟和雅虎贊助的學習系統。
    • WEKA - 一套機器學習軟件。
    • BidMach - CPU 和 GPU 加速庫的機器學習庫。

    Benchmarking

    • Apache Hadoop Benchmarking - 測試 Hadoop 性能的微基準測試。
    • Berkeley SWIM Benchmark - 真實大數據工做負載基準。
    • Intel HiBench - Hadoop 基準套件。
    • PUMA Benchmarking - MapReduce 應用程序的基準測試套件。
    • Yahoo Gridmix3 - 來自 Yahoo 工程師團隊的 Hadoop 集羣基準測試。
    • Deeplearning4j Benchmarks

    安全

    • Apache Ranger - 是一個用在 Hadoop 平臺上並提供操做、監控、管理綜合數據安全的框架。
    • Apache Eagle -由 eBay 公司開源的一個識別大數據平臺上的安全和性能問題的開源解決方案。
    • Apache Knox Gateway - Hadoop 集羣中用於數據處理的 REST API 網關
    • Apache Sentry - 爲 Hadoop 集羣中的元數據和數據存儲提供集中、細粒度的訪問控制。
    • BDA - Hadoop 和 Spark 的漏洞檢測器

    系統部署

    • Apache Ambari - 一個集中部署、管理、監控Hadoop 分佈式集羣的工具。
    • Apache Bigtop - 一個針對基礎設施工程師和數據科學家的開源項目,旨在全面打包、測試和配置領先的開源大數據組件/項目,包括但不限於 Hadoop、HBase 和 Spark 。
    • Apache Helix - 集羣管理框架。
    • Apache Mesos - 一個相似於 YARN 的集羣管理器,提供了有效的、跨分佈式應用或框架的資源隔離和共享,能夠運行 Hadoop、MPI、Hypertable、Spark。
    • Apache Slider - 是一個 YARN 應用程序,用於在 YARN 上部署現有的分佈式應用程序。
    • Apache Whirr - 運行雲服務的一組 Java 類庫。
    • Apache YARN - 集羣管理系統。
    • Brooklyn - 簡化應用程序部署和管理的庫。
    • Buildoop - 相似於 Apache BigTop,基於 Groovy 語言開發。
    • Cloudera HUE - 用於與 Hadoop 交互的 web 應用程序。
    • Facebook Prism - 多數據中心複製系統。
    • Google Borg - Google 的內部大型集羣管理系統。
    • Google Omega - Google 內部第三代的集羣管理框架。
    • Hortonworks HOYA - 能夠在 YARN 上部署 HBase 集羣的應用程序。
    • Kubernetes - Google 團隊發起並維護的基於 Docker 的開源容器集羣管理系統。
    • Marathon - 一個 Mesos 框架,可以支持運行長服務。

    應用程序

    • 411 - 一個警報管理Web應用程序。
    • Adobe spindle - 使用 Scala、Spark 和 Parquet 進行 web 分析的下一代系統。
    • Apache Kiji - 基於 HBase 的實時數據採集與分析框架。
    • Apache Metron - 一種多功能的安全遙測數據捕獲、流分析和威脅響應平臺,表明了安全數據平臺的最新發展水平。
    • Apache Nutch - 開源 web 爬蟲程序。
    • Apache OODT - NASA 開源的用於作數據管理的系統。
    • Apache Tika - 使用 Java 編寫的內容檢測和分析框架。
    • Argus - 時序監控報警平臺。
    • AthenaX - 一個流分析平臺,容許用戶使用結構化查詢語言(SQL)運行生產質量的大規模流分析。
    • Atlas - 用於管理維度時間序列數據的系統。
    • Countly - 基於 Node.js 和 MongoDB 的開源移動和 web 分析平臺。
    • Domino - 運行、擴展、共享和部署模型——不須要任何基礎設施。
    • Eclipse BIRT - 基於 Eclipse 的報告系統。
    • ElastAert - 爲 ES 打造的報警監控工具。
    • Eventhub - 開源事件分析平臺。
    • Hermes - 構建在 Kafka 之上的異步消息代理。
    • HIPI Library - 使用 Hadoop 的 MapReduce 來執行圖像處理任務的API。
    • Hunk - Hadoop 的分析工具。
    • Imhotep - 大型分析平臺。
    • Jupyter - 基於網頁的用於交互計算的應用程序。其可被應用於全過程計算:開發、文檔編寫、運行代碼和展現結果。
    • MADlib - RDBMS 的數據處理庫,用於分析數據。
    • Kapacitor - 用於對時間序列數據進行處理、監視和警報的開源框架。
    • Kylin - 一個開源的分佈式分析引擎,提供 Hadoop/Spark 之上的 SQL 查詢接口及多維分析(OLAP)能力以支持超大規模數據,最初由 eBay Inc. 開發並貢獻至開源社區,能在亞秒內查詢巨大的Hive表。
    • PivotalR - 支持在 Pivotal HD / HAWQ 以及 PostgreSQL 上運行 R。
    • Rakam - 開源實時自定義分析平臺,由 Postgresql, Kinesis 和 PrestoDB 提供支持。
    • Qubole - 可以自動擴展 Hadoop 集羣以及內置的連接器。
    • Sense - 數據科學和大數據分析的雲平臺。
    • SnappyData - 一個統一 OLTP+OLAP +流式寫入的內存分佈式數據庫。
    • Snowplow - 由 Hadoop,Kinesis,Redshift 和 Postgres 支持的企業級 Web 和事件分析。
    • SparkR - 用於 Spark 的 R 前端。
    • Splunk - 一款成熟的商業化日誌處理分析產品。
    • Sumo Logic - 基於雲的日誌處理分析產品。
    • Talend - YARN、Hadoop、HBASE、Hive、HCatalog 和 Pig 的統一開源環境。
    • Warp - 大數據示例查詢工具(OS X 應用)

    搜索引擎和框架

    • Apache Lucene - 一套用於全文檢索和搜索的開放源碼程序庫
    • Apache Solr - 是 Apache Lucene 項目的開源企業搜索平臺。其主要功能包括全文檢索、命中標示、分面搜索、動態聚類、數據庫集成,以及富文本(如Word、PDF)的處理。
    • Elassandra - 是 ElasticSearch 的一個分支,通過修改,能夠做爲 Apache Cassandra 的插件運行,具備可擴展和靈活的點對點架構。
    • ElasticSearch - 一個基於 Lucene 庫的搜索引擎。它提供了一個分佈式、支持多租戶的全文搜索引擎,具備 HTTP Web 接口和無模式 JSON 文檔。
    • Enigma.io – 免費增值的 Web 應用程序,用於對 Web 上抓取的海量數據集進行瀏覽,過濾,分析,搜索和導出。
    • Facebook Unicorn - 社交圖搜索平臺.
    • Google Caffeine - 一個高性能、出色的緩存類庫。
    • Google Percolator - 由 Google 公司開發的、爲大數據集羣進行增量處理更新的系統,主要用於 google 網頁搜索索引服務。
    • TeraGoogle - 大型搜索索引。
    • HBase Coprocessor - HBase 的協處理器,Percolator 的實現。
    • Lily HBase Indexer - 一款快速、簡單的 HBase 的內容檢索方案,它能夠幫助你在 Solr 中創建 HBase 的數據索引,從而經過 Solr 進行數據檢索。
    • LinkedIn Bobo - 徹底用 Java 編寫的 Faceted Search 實現,是 Apache Lucene 的擴展。
    • LinkedIn Cleo -一個靈活的軟件庫,用於處理一些預輸入和自動完成的搜索功能。
    • LinkedIn Galene - LinkedIn 的搜索架構。
    • LinkedIn Zoie - 一個用 Java 編寫的實時搜索/索引系統。
    • MG4J - MG4J (Managing Gigabytes for Java) 是一個用 Java 編寫的大型文檔集合的全文搜索引擎,它是高度可定製的,高性能的,並提供了最早進的功能和新的研究算法。
    • Sphinx Search Server - 全文搜索引擎。
    • Vespa - 在大型數據集上進行低延遲計算的引擎。它存儲和索引數據,以即可以在服務時執行對數據的查詢,選擇和處理。

    MySQL 分支和演進

    • Amazon RDS - AWS 的 MySQL 數據庫。
    • Drizzle - MySQL 6.0的演進。
    • Google Cloud SQL - Google 雲中的 MySQL 數據庫。
    • MariaDB - MySQL 的一個分支,採用GPL受權許可。目的是徹底兼容 MySQL,包括 API 和命令行。
    • MySQL Cluster - 使用 NDB 集羣存儲引擎實現 MySQL 集羣。
    • Percona Server - MySQL 加強版,能夠替代它。
    • ProxySQL - MySQL 的高性能代理。
    • TokuDB - TokuDB 是 MySQL 和 MariaDB 的存儲引擎。
    • WebScaleSQL - WebScaleSQL 是 Facebook、 Google、Twitter 和 Linkedin 四家公司的MySQL 團隊發起的 MySQL 開源組織,旨在改進 MySQL 在規模和性能等方面的問題。

    PostgreSQL 分支和演進

    • HadoopDB - MapReduce 和 DBMS 的混合體。
    • IBM Netezza - 高性能數據倉庫設備。
    • Postgres-XL - 可伸縮的基於 PostgreSQL 的開源數據庫集羣。
    • RecDB - 徹底在 PostgreSQL 內部構建的開源推薦引擎。
    • Stado - 僅針對數據倉庫和數據集市應用程序的開源 MPP 數據庫系統。
    • Yahoo Everest - 由 PostgreSQL 派生的 PB 級數據庫/MPP。
    • TimescaleDB - 針對快速攝取和複雜查詢而優化的開源時間序列數據庫。
    • PipelineDB - 開源的流式數據庫,基於 PostgreSQL 數據庫改造的,容許咱們經過 SQL 的方式,對數據流作操做,並把操做結果儲存起來。

    Memcached 分支和演進

    • Facebook McDipper - 用於閃存的鍵/值緩存,設計目的在於提升閃存存儲的使用效率。
    • Facebook Memcached - Memcache 的分支。
    • Twemproxy - 一個快速、輕量級的 memcached 和 redis 代理。
    • Twitter Fatcache - 用於閃存的鍵/值緩存。
    • Twitter Twemcache - Memcache 的分支。

    嵌入式數據庫

    • Actian PSQL - 由 Pervasive Software 開發的符合 ACID 的 DBMS,針對嵌入應用程序進行了優化。
    • BerkeleyDB - 可爲鍵/值數據提供高性能的嵌入式數據庫。
    • HanoiDB - Erlang LSM BTree 存儲。
    • LevelDB - Google 開源的持久化KV單機數據庫,具備很高的隨機寫,順序讀/寫性能。
    • LMDB - 由 Symas 開發的基於 Btree-based 的高性能 mmap key-value 數據庫
    • RocksDB - Facebook 公司基於 LevelDB 開發的一款開源嵌入式數據庫引擎。

    商業智能

    • BIME Analytics - 商業智能雲平臺。
    • Blazer - 使商業智能變得簡單。
    • Chartio - 商業智能平臺,能夠可視化和瀏覽咱們的數據。
    • datapine - 自助式商業智能工具。
    • GoodData - 商業智能和大數據分析軟件。
    • Jaspersoft - 強大的商業智能套件。
    • Jedox Palo - 可定製的商業智能平臺.
    • Jethrodata - 交互式大數據分析。
    • Metabase - 一個簡單、開源的方式,經過給公司成員提問,從獲得的數據中進行分析、學習。
    • Microsoft - 商業智能軟件及平臺。
    • Microstrategy - 用於商業智能、移動智能和網絡應用程序的軟件平臺。
    • Numeracy - SQL 客戶端和商業智能。
    • Pentaho - 商業智能平臺。
    • Qlik - 商業智能及分析平臺。
    • Redash - 開源商業智能平臺,支持多個數據源和計劃查詢。
    • Saiku - 開源分析平臺。
    • SpagoBI - 開源商業智能平臺。
    • SparklineData SNAP - 基於 Apache Spark 的商業智能平臺。
    • Tableau - 商業智能平臺。
    • Zoomdata - 大數據分析平臺。

    數據可視化

    • Airpal - PrestoDB 的 Web UI。
    • AnyChart - 一套靈活的 JavaScript (HTML5) 庫,可知足您的全部數據可視化需求。
    • Arbor - 一個使用 web workers 和 jQuery 建立的圖可視化庫。
    • Banana - 可視化存儲在 Solr 中的日誌和帶時間戳的數據,是 Kibana 的一部分。
    • Bloomery - Impala 的 Web UI。
    • Bokeh - 一個 Python 交互式可視化庫,支持現代化 Web 瀏覽器,提供很是完美的展現功能。
    • C3 - 基於 D3 的可重用圖表庫
    • CartoDB - 開源的雲上地理空間數據庫,容許存儲和可視化 web 上的數據。使用 CartoDB 能夠快速建立基於地圖的可視化效果。
    • chartd - 響應式、視網膜兼容圖表,僅須要一個 img 標籤。
    • Chart.js - 一套開源、簡單、乾淨而且有吸引力的基於 HTML5 技術的 JavaScript 圖表工具。
    • Chartist.js - 很是簡單並且實用的 JavaScript 前端圖表生成器。
    • Crossfilter - 一個 JavaScript 庫,用於在 JavaScript 中製做交互式的儀表板,能夠與 dc.js 、d3.js 一塊兒工做。
    • Cubism - 用於時間序列可視化的 JavaScript 庫。
    • Cytoscape - 一個專一於網絡可視化和分析的開源軟件。
    • DC.js - 一個用於網頁做圖、生成互動圖形的 JavaScript 函數庫。
    • D3 - 目前最流行的數據可視化庫之一,小型,靈活,高效的數據可視化庫,用來建立和操做基於數據的交互式文檔。
    • D3.compose - 由可重複使用的圖表和組件組成複雜的、數據驅動的可視化文件。
    • D3Plus - d3.js 的一組至關強大的可重用圖表和樣式。
    • DevExtreme React Chart - 基於高性能插件的 React 圖表,用於 Bootstrap 和 Material Design。
    • Echarts - 一款由百度前端技術部開發的,基於Javascript 的數據可視化圖表庫,提供直觀,生動,可交互,可個性化定製的數據可視化圖表。
    • Envisionjs - 一個基於 HTML5 技術的數據可視化庫
    • FnordMetric - 一個開源的 Web 應用,可用於建立實時儀表板,方即可視化任何數據。
    • Frappe Charts - 一個受 Github 啓發的輕量級 SVG 圖表庫,它不依賴任何類庫和框架。
    • Freeboard - 讓用戶建立他們本身的用來監控物聯網部署的儀表盤,該代碼在 GitHub上免費提供,你能夠經過這些儀表板展現跟蹤空氣質量、住宅電器、釀酒狀況和實時環境條件變化。
    • Gephi - 一款開源免費跨平臺基於 JVM 的網絡分析領域的數據可視化處理軟件
    • Google Charts - 一種交互式 Web 服務,可根據用戶提供的數據建立圖形圖表
    • Grafana - 一個跨平臺的開源的度量分析和可視化工具,能夠經過將採集的數據查詢而後可視化的展現,並及時通知。
    • Graphite - 一款開源的監控繪圖工具。
    • Highcharts - 兼容 IE6+、完美支持移動端、圖表類型豐富、方便快捷的 HTML5 交互性圖表庫。
    • IPython - 一種基於 Python 的交互式解釋器。相較於原生的 Python Shell,IPython 提供了更爲強大的編輯和交互功能。
    • Kibana - Elasticsearch 的開源數據可視化插件。
    • Lumify - 開源大數據分析可視化平臺。
    • Matplotlib - Python 編程語言及其數值數學擴展包 NumPy 的可視化操做界面。
    • Metricsgraphic.js - 一個創建在 D3 基礎上,爲可視化和時間序列化的數據而優化的庫。
    • NVD3 - d3.js 的圖表組件。
    • Peity - 漸進式 SVG 條形圖,折線圖和餅圖。
    • Plot.ly - Plotly 爲我的和協做提供在線圖形,分析和統計工具,以及 Python,R,MATLAB,Perl,Julia,Arduino 和 REST 的科學圖形庫。
    • Plotly.js 一個開源的交互式 JavaScript 圖形庫,創建在 d3.js 和 webgl 之上,並支持 20 多種類型的交互式圖表。
    • Recline - 簡單而強大的庫,可使用純 Javascript 和 HTML 構建數據應用程序。
    • Redash - 查詢和可視化數據的開源平臺。
    • ReCharts - 一個基於React組件的可組合圖表庫。
    • Shiny - R 的 Web 應用程序框架。
    • Sigma.js - 專門用於圖形繪製的 JavaScript 庫。
    • Superset - 由 Airbnb 開發並開源一個數據探索和可視化平臺,設計用來提供直觀的,可視化的,交互式的分析體驗。
    • Vega - 一個可視化的語法。
    • Zeppelin - 一個基於 Web 的 notebook,提供交互數據分析和可視化。
    • Zing Charts - 一個功能強大的 JavaScript 圖表。

    物聯網和傳感器數據

    • Apache Edgent (Incubating) - 一種編程模型和具備微內核風格的運行時,可嵌入到網關和小型的物聯網設備中。
    • Azure IoT Hub - 託管服務,支持 IoT 設備與 Azure 之間的雙向通訊。
    • TempoIQ - 基於雲計算的傳感器分析。.
    • 2lemetry - 物聯網平臺。
    • Pubnub - 數據流網絡。
    • ThingWorx - 可用於查找數據來源,使數據與情境相關,合成數據,同時協調流程,以提供強大的Web、移動和AR 體驗的平臺。
    • IFTTT - 一個新生的網絡服務平臺,經過其餘不一樣平臺的條件來決定是否執行下一條命令。
    • Evrything - 使產品智能化。
    • NetLytics - 用於在Spark上處理網絡數據的分析平臺。

    有趣的閱讀材料

    • Big Data Benchmark - Redshift,Hive,Shark,Impala 和 Stiger/Tez的基準。
    • NoSQL Comparison - Cassandra,MongoDB,CouchDB,Redis,Riak,HBase,Couchbase,Neo4j,Hypertable,ElasticSearch,Accumulo,VoltDB 和 Scalaris 的比較。
    • Monitoring Kafka performance - 監視 Apache Kafka 的指南,包括度量收集的本地方法。
    • Monitoring Hadoop performance - 監視 Hadoop 的指南,概述了 Hadoop 體系結構以及度量收集的本機方法。
    • Monitoring Cassandra performance - 監控 Cassandra 的指南,包括度量收集的本地方法。

    有趣的論文

    2015 - 2016

    • 2015 - Facebook - One Trillion Edges: Graph Processing at Facebook-Scale.

    2013 - 2014

    • 2014 - Stanford - Mining of Massive Datasets.
    • 2013 - AMPLab - Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices.
    • 2013 - AMPLab - MLbase: A Distributed Machine-learning System.
    • 2013 - AMPLab - Shark: SQL and Rich Analytics at Scale.
    • 2013 - AMPLab - GraphX: A Resilient Distributed Graph System on Spark.
    • 2013 - Google - HyperLogLog in Practice: Algorithmic Engineering of a State of The Art Cardinality Estimation Algorithm.
    • 2013 - Microsoft - Scalable Progressive Analytics on Big Data in the Cloud.
    • 2013 - Metamarkets - Druid: A Real-time Analytical Data Store.
    • 2013 - Google - Online, Asynchronous Schema Change in F1.
    • 2013 - Google - F1: A Distributed SQL Database That Scales.
    • 2013 - Google - MillWheel: Fault-Tolerant Stream Processing at Internet Scale.
    • 2013 - Facebook - Scuba: Diving into Data at Facebook.
    • 2013 - Facebook - Unicorn: A System for Searching the Social Graph.
    • 2013 - Facebook - Scaling Memcache at Facebook.

    2011 - 2012

  • 2012 - **Twitter** - The Unified Logging Infrastructure for Data Analytics at Twitter.
  • - 2012 - **AMPLab** - Blink and It’s Done: Interactive Queries on Very Large Data. - 2012 - **AMPLab** - Fast and Interactive Analytics over Hadoop Data with Spark. - 2012 - **AMPLab** - Shark: Fast Data Analysis Using Coarse-grained Distributed Memory. - 2012 - **Microsoft** - Paxos Replicated State Machines as the Basis of a High-Performance Data Store. - 2012 - **Microsoft** - Paxos Made Parallel. - 2012 - **AMPLab** - BlinkDB: Queries with Bounded Errors and Bounded Response Times on Very Large Data.
    • 2012 - Google - Spanner: Google’s Globally-Distributed Database.
    • 2011 - AMPLab - Scarlett: Coping with Skewed Popularity Content in MapReduce Clusters.
    • 2011 - AMPLab - Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center.
    • 2011 - Google - Megastore: Providing Scalable, Highly Available Storage for Interactive Services.

    2001 - 2010

    • 2010 - Facebook - Finding a needle in Haystack: Facebook’s photo storage.
    • 2010 - AMPLab - Spark: Cluster Computing with Working Sets.
    • 2010 - Google - Pregel: A System for Large-Scale Graph Processing.
    • 2010 - Google - Large-scale Incremental Processing Using Distributed Transactions and Notifications base of Percolator and Caffeine.
    • 2010 - Google - Dremel: Interactive Analysis of Web-Scale Datasets.
    • 2010 - Yahoo - S4: Distributed Stream Computing Platform.
    • 2009 - HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads.
    • 2008 - AMPLab - Chukwa: A large-scale monitoring system.
    • 2007 - Amazon - Dynamo: Amazon’s Highly Available Key-value Store.
    • 2006 - Google - The Chubby lock service for loosely-coupled distributed systems.
    • 2006 - Google - Bigtable: A Distributed Storage System for Structured Data.
    • 2004 - Google - MapReduce: Simplied Data Processing on Large Clusters.
    • 2003 - Google - The Google File System.

    視頻

    • Spark in Motion - Spark in Motion 教你如何使用 Spark 進行批處理和流數據分析。

    圖書

    Streaming

    • Data Science at Scale with Python and Dask - Data Science at Scale with Python and Dask teaches you how to build distributed data projects that can handle huge amounts of data.
    • Streaming Data - Streaming Data introduces the concepts and requirements of streaming and real-time data systems.
    • Storm Applied - Storm Applied is a practical guide to using Apache Storm for the real-world tasks associated with processing and analyzing real-time data streams.
    • Fundamentals of Stream Processing: Application Design, Systems, and Analytics - This comprehensive, hands-on guide combining the fundamental building blocks and emerging research in stream processing is ideal for application designers, system builders, analytic developers, as well as students and researchers in the field.
    • Stream Data Processing: A Quality of Service Perspective - Presents a new paradigm suitable for stream and complex event processing.
    • Unified Log Processing - Unified Log Processing is a practical guide to implementing a unified log of event streams (Kafka or Kinesis) in your business
    • Kafka Streams in Action - Kafka Streams in Action teaches you everything you need to know to implement stream processing on data flowing into your Kafka platform, allowing you to focus on getting more from your data without sacrificing time or effort.
    • Big Data - Big Data teaches you to build big data systems using an architecture that takes advantage of clustered hardware along with new tools designed specifically to capture and analyze web-scale data.
    • Spark in Action 2nd Ed. - Spark in Action teaches you the theory and skills you need to effectively handle batch and streaming data using Spark. Fully updated for Spark 2.0.
    • Kafka in Action - Kafka in Action is a fast-paced introduction to every aspect of working with Kafka you need to really reap its benefits.
    • Fusion in Action - Fusion in Action teaches you to build a full-featured data analytics pipeline, including document and data search and distributed data clustering.
    • Reactive Data Handling - Reactive Data Handling is a collection of five hand-picked chapters, selected by Manuel Bernhardt, that introduce you to building reactive applications capable of handling real-time processing with large data loads--free eBook!

    Distributed systems

    • Distributed Systems for fun and profit – 分佈式系統理論。包括時間、順序、副本等。

    Graph Based approach

    • Graph-Powered Machine Learning - Alessandro Negro,結合圖論和模型改進機器學習項目

    Data Visualization

    • The beauty of data visualization
    • Designing Data Visualizations with Noah Iliinsky
    • Hans Rosling's 200 Countries, 200 Years, 4 Minutes
    • Ice Bucket Challenge Data Visualization

    本文翻譯自:Awesome Big Data算法

    相關文章
    相關標籤/搜索