http://www.chinahadoop.cn/page/developerphp
什麼是大數據開發師?java
圍繞大數據系平臺系統級的研發人員, 熟練Hadoop、Spark、Storm等主流大數據平臺的核心框架。深刻掌握如何編寫MapReduce的做業及做業流的管理完成對數據的計算,並可以使用Hadoop提供的通用算法, 熟練掌握Hadoop整個生態系統的組件如: Yarn,HBase、Hive、Pig等重要組件,可以實現對平臺監控、輔助運維繫統的開發。node
經過學習一系列面向開發者的Hadoop、Spark等大數據平臺開發技術,掌握設計開發大數據系統或平臺的工具和技能,可以從事分佈式計算框架如Hadoop、Spark羣集環境的部署、開發和管理工做,如性能改進、功能擴展、故障分析等。ios
Follow the developer path:算法
一、《hadoop大數據平臺基礎》數據庫
第1周 Hadoop生態系統概述以及版本演化
概要介紹Hadoop生態系統及其版本演化歷史,並給出hadoop版本選擇建議。
第2周 HDFS 2.0 原理、特性與基本架構
介紹HDFS 2.0原理與架構,並與HDFS 1.0進行對比。介紹HDFS 2.0新特性,包括快照、緩存、異構存儲架構等
第3周 YARN應用場景、基本架構與資源調度
介紹YARN是什麼、基本原理與架構,並剖析其調度策略。
第4周 MapReduce 2.0基本原理與架構
介紹計算框架MapReduce基本原理與架構
第5周 MapReduce 2.0編程實踐(涉及多語言編程)
手把手介紹如何用java、C++、php等語言編寫MapReduce程序
第6周 HBase應用場景、原理與基本架構
介紹HBase應用場景、原理和架構
第7周 HBase編程實踐(涉及多語言編程)
手把手介紹如何用Java、C++、Python等語言編寫HBase客戶端程序。
第8周 HBase案例分析
介紹幾個HBase典型應用案例,包括互聯網應用案例和銀行應用案例。
第9周 Zookeeper部署及典型應用
介紹Zookeeper是什麼,在hadoop生態系統中的地位
第10周 Hadoop數據入庫系統Flume與Sqoop
介紹如何使用flume和sqoop兩個系統將外部流式數據(好比網站日誌,用戶行爲數據等)、關係型數據庫(好比MySQL、Oracle等)中的數據導入Hadoop中進行分析和挖掘
第11周 數據分析系統Hive與Pig應用與比較
介紹如何使用hive和pig分析hadoop中的海量數據
第12周 數據挖掘工具包Mahout
介紹如何使用mahout提供的數據挖掘和機器學習算法進行海量數據挖掘
第13周 工做流引擎Oozie與Azkaban應用
介紹如何使用Oozie和azkaban對MapReduce做業、Pig/hive做業等進行統一管理和調度
第14周 兩個綜合案例:日誌分析系統與機器學習平臺
介紹兩個典型的互聯網應用案例,進一步深刻領悟hadoop生態系統中各個系統的應用場景和解決實際問題的方式。編程
二、《大數據前置課程系列--scala》數組
第一週 Scala基礎緩存
第二週 Scala面向對象編程性能優化
第三週 Scala函數式編程
第四周 Scala高級編程
三、《spark大數據平臺基礎》
第一週 Spark生態系統概述與編程模型
第二週 深刻Spark內核
第三週 Spark Streaming原理與實踐
第四周 Shark原理與實踐
第五週 Machine Learning on Spark
第六週 Spark多語言編程
第七週 Spark SQL
第八週 圖計算GraphX
第九周 Spark on Yarn
第十週 JobServer
四、《Hadoop進階》
第一部分. MapReduce
Mapreduce工做流程及基本架構回顧
運維相關
開發相關
第二部分. hdfs
HDFS API
fuse(C API)
壓縮
HDFS benchmark
Datanode添加及刪除
多盤支持,磁盤錯誤感知
hdfs raid
HDFS block size設置相關問題
文件備份數設置
HDFS中合併文件
第三部分. Hadoop工具
dfsadmin/mradmin/balancer/distcp/fsck/fs/job
監控及報警
hadoop配置管理
第四部分. Hadoop調試
Log
本地模式調試map/reduce任務
遠程調試
第五部分. 問題分析
Java GC介紹及java進程經常使用的分析工具jstat、jhat、jmap
top/iostat/netstat/lsof等
Jstack/kill -3
Strace
nload/tcpdump
第六部分.分析示例
MapReduce簡單分析
用MapReduce實現Group-by
用MapReduce實現倒排索引
MapReduce實現直方圖
MapReduce實現Join
五、《Hbase進階》
六、《SQL on hadoop》
七、《Hadoop/Spark企業應用實戰》