Hadoop學習路線

時間 2019-12-08

標籤 hadoop 學習路線欄目 Hadoop 简体版

原文原文鏈接

隨着大數據的盛行，Hadoop也流行起來。面過一些公司，包括開發Hadoop :如Cloudera, Hortonworks, MapR, Teradata, Greenplum, Amazon EMR, 使用Hadoop的除了Google，數不勝數了.html

Hadoop 2.0轉型基本無可阻擋，今年下半年要正式發佈了，它的出現讓你們知識體系都要更新了。Hadoop1.0搞了8年才發佈，2.0不到2年就出來了。2.0的核心是YARN，它的誕生仍是有趣的故事git

YARN介紹

Hadoop 生態系統

SQL on Hadoop

Hadoop Summit

書籍和Paper

「Hadoop: The Definitive Guide」: 裏面內容很是好，既有高屋建瓴，又有微觀把握，基本適用於1.X版本。好比mapreduce各個子階段，Join在裏面也有代碼實現，第三版算法

Google的三輛馬車，GFS, MapReduce, BigTable Google的新三輛馬車：Caffeine、Pregel、Dremelsql

SIGMOD, VLDB Top DB conferenceapache

入門：

Hadoop 2.0新知識; HDFS2 HA，Snapshot, ResourceManager,ApplicationsManager, NodeManager性能優化

進階:

算法：

Blog

關注Cloudera, Hortonworks, MapR

相關係統

公司列表：

其餘

Hadoop進化目標：開發部署傻瓜化，性能更強勁，最後爲程序員標配。
核心都是被寡頭控制的，記得一邊文章說一流的公司賣標準，二流的公司賣技術，三流的公司賣產品，H和C有最多的committer，天然就影響着整個Hadoop社區。
技術就是突飛猛進，仍是多看看那些公司的博客，關注感興趣的新產品，Hortonworks Stack
在Hadoop系統中從頭裸寫MapReduce不現實了，ETL基本靠Hive,Pig, 還有Cascading,Scalding
MapReduce並非最優的，僅適合批處理，不少問題：JVM的啓動overhead很大，小 Job更明顯，數據必須先存儲，不適合迭代計算，延遲高。DB學術圈討論好久tradeoff 了,MapReduce: 一個巨大的倒退