史上最全的「大數據」學習資源（下）[轉]

時間 2019-11-10

標籤史上數據學習資源简体版

原文原文鏈接

從網上轉的前端

當前，整個互聯網正在從IT時代向DT時代演進，大數據技術也正在助力企業和公衆敲開DT世界大門。當今「大數據」一詞的重點其實已經不只在於數據規模的定義，它更表明着信息技術發展進入了一個新的時代，表明着爆炸性的數據信息給傳統的計算技術和信息技術帶來的技術挑戰和困難，表明着大數據處理所需的新的技術和方法，也表明着大數據分析和應用所帶來的新發明、新服務和新的發展機遇。
web

爲了幫助你們更好深刻了解大數據，雲棲社區組織翻譯了GitHub Awesome Big Data資源，供你們參考。本資源類型主要包括：大數據框架、論文等實用資源集合。算法

服務編程數據庫

Akka Toolkit：JVM中分佈性、容錯事件驅動應用程序的運行時間；
編程
Apache Avro：數據序列化系統；
api
Apache Curator：Apache ZooKeeper的Java庫；
瀏覽器
Apache Karaf：在任何OSGi框架之上運行的OSGi運行時間；
緩存
Apache Thrift：構建二進制協議的框架；
安全
Apache Zookeeper：流程管理集中式服務；
服務器
Google Chubby：一種鬆耦合分佈式系統鎖服務；
Linkedin Norbert：集羣管理器；
OpenMPI：消息傳遞框架；
Serf：服務發現和協調的分散化解決方案；
Spotify Luigi：一種構建批處理做業的複雜管道的Python包，它可以處理依賴性解析、工做流管理、可視化、故障處理、命令行一體化等等問題；
Spring XD：數據攝取、實時分析、批量處理和數據導出的分佈式、可擴展系統；
Twitter Elephant Bird：LZO壓縮數據的工做庫；
Twitter Finagle：JVM的異步網絡堆棧。

調度

Apache Aurora：在Apache Mesos之上運行的服務調度程序；
Apache Falcon：數據管理框架；
Apache Oozie：工做流做業調度程序；
Chronos：分佈式容錯調度；
Linkedin Azkaban：批處理工做流做業調度；
Schedoscope：Hadoop做業敏捷調度的Scala DSL；
Sparrow：調度平臺；
Airflow：一個以編程方式編寫、調度和監控工做流的平臺。

機器學習

Apache Mahout：Hadoop的機器學習庫；
brain：JavaScript中的神經網絡；
Cloudera Oryx：實時大規模機器學習；
Concurrent Pattern：Cascading的機器學習庫；
convnetjs：Javascript中的機器學習，在瀏覽器中訓練卷積神經網絡（或普通網絡）；
Decider：Ruby中靈活、可擴展的機器學習；
ENCOG：支持多種先進算法的機器學習框架，同時支持類的標準化和處理數據；
etcML：機器學習文本分類；
Etsy Conjecture：Scalding中可擴展的機器學習；
Google Sibyl：Google中的大規模機器學習系統；
GraphLab Create：Python的機器學習平臺，包括ML工具包、數據工程和部署工具的普遍集合；
H2O：Hadoop統計性的機器學習和數學運行時間；
MLbase：用於BDAS堆棧的分佈式機器學習庫；
MLPNeuralNet：針對iOS和Mac OS X的快速多層感知神經網絡庫；
MonkeyLearn：使文本挖掘更爲容易，從文本中提取分類數據；
nupic：智能計算的Numenta平臺，它是一個啓發大腦的機器智力平臺，基於皮質學習算法的精準的生物神經網絡；
PredictionIO：建於Hadoop、Mahout和Cascading上的機器學習服務器；
SAMOA：分佈式流媒體機器學習框架；
scikit-learn：scikit-learn爲Python中的機器學習；
Spark MLlib：Spark中一些經常使用的機器學習（ML）功能的實現；
Vowpal Wabbit：微軟和雅虎發起的學習系統；
WEKA：機器學習軟件套件；
BidMach：CPU和加速GPU的機器學習庫。

基準測試

Apache Hadoop Benchmarking：測試Hadoop性能的微基準；
Berkeley SWIM Benchmark：現實大數據工做負載基準測試；
Intel HiBench：Hadoop基準測試套件；
PUMA Benchmarking：MapReduce應用的基準測試套件；
Yahoo Gridmix3：雅虎工程師團隊的Hadoop集羣基準測試。

安全性

Apache Knox Gateway：Hadoop集羣安全訪問的單點；
Apache Sentry：存儲在Hadoop的數據安全模塊。

系統部署

Apache Ambari：Hadoop管理的運做框架；
Apache Bigtop：Hadoop生態系統的部署框架；
Apache Helix：集羣管理框架；
Apache Mesos：集羣管理器；
Apache Slider：一種YARN應用，用來部署YARN中現有的分佈式應用程序；
Apache Whirr：運行雲服務的庫集；
Apache YARN：集羣管理器；
Brooklyn：用於簡化應用程序部署和管理的庫；
Buildoop：基於Groovy語言，和Apache BigTop相似；
Cloudera HUE：和Hadoop進行交互的Web應用程序；
Facebook Prism：多數據中心複製系統；
Google Borg：做業調度和監控系統；
Google Omega：做業調度和監控系統；
Hortonworks HOYA：可在YARN上部署HBase集羣的應用；
Marathon：用於長期運行服務的Mesos框架。

應用程序

Adobe spindle：使用Scala、Spark和Parquet處理的下一代web分析；
Apache Kiji：基於HBase，實時採集和分析數據的框架；
Apache Nutch：開源網絡爬蟲；
Apache OODT：用於NASA科學檔案中數據的捕獲、處理和共享；
Apache Tika：內容分析工具包；
Argus：時間序列監測和報警平臺；
Countly：基於Node.js和MongoDB，開源的手機和網絡分析平臺；
Domino：運行、規劃、共享和部署模型——沒有任何基礎設施；
Eclipse BIRT：基於Eclipse的報告系統；
Eventhub：開源的事件分析平臺；
Hermes：建於Kafka上的異步消息代理；
HIPI Library：在Hadoop's MapReduce上執行圖像處理任務的API；
Hunk：Hadoop的Splunk分析；
Imhotep：大規模分析平臺；
MADlib：RDBMS的用於數據分析的數據處理庫；
Kylin：來自eBay的開源分佈式分析工具；
PivotalR：Pivotal HD / HAWQ和PostgreSQL中的R；
Qubole：爲自動縮放Hadoop集羣，內置的數據鏈接器；
Sense：用於數據科學和大數據分析的雲平臺；
SnappyData：用於實時運營分析的分佈式內存數據存儲，提供創建在Spark單一集成集羣中的數據流分析、OLTP（聯機事務處理）和OLAP（聯機分析處理）；
Snowplow：企業級網絡和事件分析，由Hadoop、Kinesis、Redshift 和Postgres提供技術支持；
SparkR：Spark的R前端；
Splunk：用於機器生成的數據的分析；
Sumo Logic：基於雲的分析儀，用於分析機器生成的數據；
Talend：用於YARN、Hadoop、HBASE、Hive、HCatalog和Pig的統一開源環境；
Warp：利用大數據（OS X app）的實例查詢工具。

搜索引擎與框架

Apache Lucene：搜索引擎庫；
Apache Solr：用於Apache Lucene的搜索平臺；
ElasticSearch：基於Apache Lucene的搜索和分析引擎；
Enigma.io：爲免費增值的健壯性web應用，用於探索、篩選、分析、搜索和導出來自網絡的大規模數據集；
Facebook Unicorn：社交圖形搜索平臺；
Google Caffeine：連續索引系統；
Google Percolator：連續索引系統；
TeraGoogle：大型搜索索引；
HBase Coprocessor：爲Percolator的實現，HBase的一部分；
Lily HBase Indexer：快速、輕鬆地搜索存儲在HBase的任何內容；
LinkedIn Bobo：徹底由Java編寫的分面搜索的實現，爲Apache Lucene的延伸；
LinkedIn Cleo：爲一個一個靈活的軟件庫，使得局部、無序、實時預輸入的搜索實現了快速發展；
LinkedIn Galene：LinkedIn搜索架構；
LinkedIn Zoie：是用Java編寫的實時搜索/索引系統；
Sphinx Search Server：全文搜索引擎

MySQL的分支和演化

Amazon RDS：亞馬遜雲的MySQL數據庫；
Drizzle：MySQL的6.0的演化；
Google Cloud SQL：谷歌雲的MySQL數據庫；
MariaDB：MySQL的加強版嵌入式替代品；
MySQL Cluster：使用NDB集羣存儲引擎的MySQL實現；
Percona Server：MySQL的加強版嵌入式替代品；
ProxySQL：MySQL的高性能代理；
TokuDB：用於MySQL和 MariaDB的存儲引擎；
WebScaleSQL：運行MySQL時面臨相似挑戰的幾家公司，它們的工程師之間的合做。

PostgreSQL的分支和演化

Yahoo Everest - multi-peta-byte database / MPP derived by PostgreSQL.
HadoopDB：MapReduce和DBMS的混合體；
IBM Netezza：高性能數據倉庫設備；
Postgres-XL：基於PostgreSQL，可擴展的開源數據庫集羣；
RecDB：徹底創建在PostgreSQL內部的開源推薦引擎；
Stado：開源MPP數據庫系統，只針對數據倉庫和數據集市的應用程序；
Yahoo Everest：PostgreSQL能夠推導多字節P比特數據庫/MPP。

Memcached的分支和演化

Facebook McDipper：閃存的鍵/值緩存；
Facebook Memcached：Memcache的分支；
Twemproxy：Memcached和Redis的快速、輕型代理；
Twitter Fatcache：閃存的鍵/值緩存；
Twitter Twemcache：Memcache的分支。

嵌入式數據庫

Actian PSQL：Pervasive Software公司開發的ACID兼容的DBMS，在應用程序中嵌入了優化；
BerkeleyDB：爲鍵/值數據提供一個高性能的嵌入式數據庫的一個軟件庫；
HanoiDB：Erlang LSM BTree存儲；
LevelDB：谷歌寫的一個快速鍵-值存儲庫，它提供了從字符串鍵到字符串值的有序映射；
LMDB：Symas開發的超快、超緊湊的鍵-值嵌入的式數據存儲；
RocksDB：基於性LevelDB，用於快速存儲的嵌入式持續性鍵-值存儲。

商業智能

BIME Analytics：商業智能雲平臺；
Chartio：精益業務智能平臺，用於可視化和探索數據；
datapine：基於雲的自助服務商業智能工具；
Jaspersoft：功能強大的商業智能套件；
Jedox Palo：定製的商業智能平臺；
Microsoft：商業智能軟件和平臺；
Microstrategy：商業智能、移動智能和網絡應用軟件平臺；
Pentaho：商業智能平臺；
Qlik：商業智能和分析平臺；
Saiku：開源的分析平臺；
SpagoBI：開源商業智能平臺；
Tableau：商業智能平臺；
Zoomdata：大數據分析；
Jethrodata：交互式大數據分析。

數據可視化

Airpal：用於PrestoDB的網頁UI；
Arbor：利用網絡工做者和jQuery的圖形可視化庫；
Banana：對存儲在Kibana中Solr. Port的日誌和時戳數據進行可視化；
Bokeh：一個功能強大的Python交互式可視化庫，它針對要展現的現代web瀏覽器，旨在爲D3.js風格的新奇的圖形提供優雅簡潔的設計，同時在大規模數據或流數據集中，經過高性能交互性來表達這種能力；
C3：基於D3可重複使用的圖表庫；
CartoDB：開源或免費增值的虛擬主機，用於帶有強大的前端編輯功能和API的地理空間數據庫；
chartd：只帶Img標籤的反應靈敏、兼容Retina的圖表；
Chart.js：開源的HTML5圖表可視化效果；
Chartist.js：另外一個開源HTML5圖表可視化效果；
Crossfilter：JavaScript庫，用於在瀏覽器中探索多元大數據集，用Dc.js和D3.js.效果很好；
Cubism：用於時間序列可視化的JavaScript庫；
Cytoscape：用於可視化複雜網絡的JavaScript庫；
DC.js：維度圖表，和Crossfilter一塊兒使用，經過D3.js呈現出來，它比較擅長鏈接圖表/附加的元數據，從而徘徊在D3的事件附近；
D3：操做文件的JavaScript庫；
D3.compose：從可重複使用的圖表和組件構成複雜的、數據驅動的可視化；
D3Plus：一組至關強大的可重用的圖表，還有D3.js的樣式；
Echarts：百度企業場景圖表；
Envisionjs：動態HTML5可視化；
FnordMetric：寫SQL查詢，返回SVG圖表，而不是表；
Freeboard：針對IOT和其餘Web混搭的開源實時儀表盤構建；
Gephi：屢獲殊榮的開源平臺，可視化和操縱大型圖形和網絡鏈接，有點像Photoshop，可是針對於圖表，適用於Windows和Mac OS X；
Google Charts：簡單的圖表API；
Grafana：石墨儀表板前端、編輯器和圖形組合器；
Graphite：可擴展的實時圖表；
Highcharts：簡單而靈活的圖表API；
IPython：爲交互式計算提供豐富的架構；
Kibana：可視化日誌和時間標記數據；
Matplotlib：Python繪圖；
Metricsgraphic.js：創建在D3之上的庫，針對時間序列數據進行最優化；
NVD3：d3.js的圖表組件；
Peity：漸進式SVG條形圖，折線和餅圖；
Plot.ly：易於使用的Web服務，它容許快速建立從熱圖到直方圖等複雜的圖表，使用圖表Plotly的在線電子表格上傳數據進行建立和設計；
Plotly.js：支持plotly的開源JavaScript圖形庫；
Recline：簡單但功能強大的庫，純粹利用JavaScript和HTML構建數據應用；
Redash：查詢和可視化數據的開源平臺；
Shiny：針對R的Web應用程序框架；
Sigma.js：JavaScript庫，專門用於圖形繪製；
Vega：一個可視化語法；
Zeppelin：一個筆記本式的協做數據分析；
Zing Charts：用於大數據的JavaScript圖表庫。

物聯網和傳感器

TempoIQ：基於雲的傳感器分析；
2lemetry：物聯網平臺；
Pubnub：數據流網絡；
ThingWorx：ThingWorx 是讓企業快速建立和運行互聯應用程序平臺；
IFTTT：IFTTT 是一個被稱爲「網絡自動化神器」的創新型互聯網服務，它的全稱是 If this then that，意思是「若是這樣，那麼就那樣」；
Evrythng：Evrythng則是一款真正意義上的大衆物聯網平臺，使得身邊的不少產品變得智能化。

文章推薦

NoSQL Comparison（NoSQL 比較）- Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris comparison；
Big Data Benchmark（大數據基準）- Redshift, Hive, Shark, Impala and Stiger/Tez的基準；
The big data successor of the spreadsheet（電子表格的大數據繼承者） - 電子表格的繼承者應該是大數據。

論文

2015 - 2016

2015 - Facebook - One Trillion Edges: Graph Processing at Facebook-Scale.（一兆邊：Facebook規模的圖像處理）

2013 - 2014

2014 - Stanford - Mining of Massive Datasets.（海量數據集挖掘）
2013 - AMPLab - Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices. （Presto：稀疏矩陣的分佈式機器學習和圖像處理）
2013 - AMPLab - MLbase: A Distributed Machine-learning System. （MLbase：分佈式機器學習系統）
2013 - AMPLab - Shark: SQL and Rich Analytics at Scale. （Shark: 大規模的SQL 和豐富的分析）
2013 - AMPLab - GraphX: A Resilient Distributed Graph System on Spark. （GraphX:基於Spark的彈性分佈式圖計算系統）
2013 - Google - HyperLogLog in Practice: Algorithmic Engineering of a State of The Art Cardinality Estimation Algorithm. （HyperLogLog實踐:一個藝術形態的基數估算算法）
2013 - Microsoft - Scalable Progressive Analytics on Big Data in the Cloud.（雲端大數據的可擴展性漸進分析）
2013 - Metamarkets - Druid: A Real-time Analytical Data Store. （Druid：實時分析數據存儲）
2013 - Google - Online, Asynchronous Schema Change in F1.（F1中在線、異步模式的轉變）
2013 - Google - F1: A Distributed SQL Database That Scales. （F1: 分佈式SQL數據庫）
2013 - Google - MillWheel: Fault-Tolerant Stream Processing at Internet Scale.（MillWheel: 互聯網規模下的容錯流處理）
2013 - Facebook - Scuba: Diving into Data at Facebook. （Scuba: 深刻Facebook的數據世界）
2013 - Facebook - Unicorn: A System for Searching the Social Graph. （Unicorn: 一種搜索社交圖的系統）
2013 - Facebook - Scaling Memcache at Facebook. （Facebook 對 Memcache 伸縮性的加強）

2011 - 2012

2012 - Twitter - The Unified Logging Infrastructure for Data Analytics at Twitter. （Twitter數據分析的統一日誌基礎結構）
2012 - AMPLab –Blink and It’s Done: Interactive Queries on Very Large Data. （Blink及其完成：超大規模數據的交互式查詢）
2012 - AMPLab –Fast and Interactive Analytics over Hadoop Data with Spark. （Spark上 Hadoop數據的快速交互式分析）
2012 - AMPLab –Shark: Fast Data Analysis Using Coarse-grained Distributed Memory. （Shark：使用粗粒度的分佈式內存快速數據分析）
2012 - Microsoft –Paxos Replicated State Machines as the Basis of a High-Performance Data Store. （Paxos的複製狀態機——高性能數據存儲的基礎）
2012 - Microsoft –Paxos Made Parallel. （Paxos算法實現並行）
2012 - AMPLab – BlinkDB：BlinkDB: Queries with Bounded Errors and Bounded Response Times on Very Large Data.（超大規模數據中有限偏差與有界響應時間的查詢）
2012 - Google –Processing a trillion cells per mouse click.（每次點擊處理一兆個單元格）
2012 - Google –Spanner: Google’s Globally-Distributed Database.（Spanner：谷歌的全球分佈式數據庫）
2011 - AMPLab –Scarlett: Coping with Skewed Popularity Content in MapReduce Clusters.（Scarlett：應對MapReduce集羣中的偏向性內容）
2011 - AMPLab –Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center.（Mesos：數據中心中細粒度資源共享的平臺）
2011 - Google –Megastore: Providing Scalable, Highly Available Storage for Interactive Services.（Megastore：爲交互式服務提供可擴展，高度可用的存儲）

2001 - 2010

2010 - Facebook - Finding a needle in Haystack: Facebook’s photo storage.（探究Haystack中的細微之處： Facebook圖片存儲）
2010 - AMPLab - Spark: Cluster Computing with Working Sets.（Spark:工做組上的集羣計算）
2010 - Google - Storage Architecture and Challenges.（存儲架構與挑戰）
2010 - Google - Pregel: A System for Large-Scale Graph Processing.（Pregel: 一種大型圖形處理系統）
2010 - Google - Large-scale Incremental Processing Using Distributed Transactions and Notiﬁcations base of Percolator and Caffeine.（使用基於Percolator 和 Caffeine平臺分佈式事務和通知的大規模增量處理）
2010 - Google - Dremel: Interactive Analysis of Web-Scale Datasets.（Dremel: Web規模數據集的交互分析）
2010 - Yahoo - S4: Distributed Stream Computing Platform.（S4:分佈式流計算平臺）
2009 - HadoopDB：An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads.（混合MapReduce和DBMS技術用於分析工做負載的的架構）
2008 - AMPLab - Chukwa: A large-scale monitoring system.（Chukwa: 大型監控系統）
2007 - Amazon - Dynamo: Amazon’s Highly Available Key-value Store.（Dynamo: 亞馬遜的高可用的關鍵價值存儲）
2006 - Google - The Chubby lock service for loosely-coupled distributed systems.（面向鬆散耦合的分佈式系統的鎖服務）
2006 - Google - Bigtable: A Distributed Storage System for Structured Data.（Bigtable: 結構化數據的分佈式存儲系統）
2004 - Google - MapReduce: Simplied Data Processing on Large Clusters.（MapReduce: 大型集羣上簡化數據處理）
2003 - Google - The Google File System.（谷歌文件系統）