Hadoop學習路線

隨着大數據的盛行,Hadoop也流行起來。面過一些公司,包括開發Hadoop :如Cloudera, Hortonworks, MapR, Teradata, Greenplum, Amazon EMR, 使用Hadoop的除了Google,數不勝數了.html

Hadoop 2.0轉型基本無可阻擋,今年下半年要正式發佈了,它的出現讓你們知識體系都 要更新了。Hadoop1.0搞了8年才發佈,2.0不到2年就出來了。2.0的核心是YARN,它的 誕生仍是有趣的故事git



YARN介紹
Hadoop 生態系統 SQL on Hadoop Hadoop Summit 書籍和Paper

「Hadoop: The Definitive Guide」: 裏面內容很是好,既有高屋建瓴,又有微觀把握,基本適用於1.X版本。好比mapreduce各個子階段,Join在裏面也有代碼實現,第三版算法

Google的三輛馬車,GFS, MapReduce, BigTable Google的新三輛馬車:Caffeine、Pregel、Dremelsql

SIGMOD, VLDB Top DB conferenceapache


入門:

  1. 知道MapReduce大體流程,Map, Shuffle, Reduce
  2. 知道Combiner, partition做用,設置Compression
  3. 搭建Hadoop集羣,Master/Slave 都運行那些服務 NameNode, DataNode, JobTracker, TaskTracker
  4. Pig, Hive 簡單語法,UDF寫法

Hadoop 2.0新知識; HDFS2 HA,Snapshot, ResourceManager,ApplicationsManager, NodeManager性能優化


進階: 算法: Blog

關注Cloudera, Hortonworks, MapR

相關係統
  • 數據流系統: Storm

  • 內存計算系統: Spark and Shark

  • 交互式實時系統:Cloudera Impala, Apache Drill (Dremel開源實現),Tez (Hortonworks)

公司列表: 其餘
  • Hadoop進化目標:開發部署傻瓜化,性能更強勁,最後爲程序員標配。
  • 核心都是被寡頭控制的,記得一邊文章說一流的公司賣標準,二流的公司賣技術,三 流的公司賣產品,H和C有最多的committer,天然就影響着整個Hadoop社區。
  • 技術就是突飛猛進,仍是多看看那些公司的博客,關注感興趣的新產品,Hortonworks Stack
  • 在Hadoop系統中從頭裸寫MapReduce不現實了,ETL基本靠Hive,Pig, 還有Cascading,Scalding
  • MapReduce並非最優的,僅適合批處理,不少問題:JVM的啓動overhead很大,小 Job更明顯,數據必須先存儲,不適合迭代計算,延遲高。DB學術圈討論好久tradeoff 了,MapReduce: 一個巨大的倒退
相關文章
相關標籤/搜索