Hadoop、Yarn、Spark是企業構建生產環境下大數據中心的關鍵技術,也是大數據處理的核心技術,是每一個雲計算大數據工程師必修課。html
大數據時代的精髓技術在於Hadoop、Yarn、Spark,是大數據時代公司和我的必須掌握和使用的核心內容。node
Hadoop、Yarn、Spark是Yahoo!、阿里淘寶等公司公認的大數據時代的三大核心技術,是大數據處理的靈魂,是雲計算大數據時代的技術命脈之所在,以Hadoop、Yarn、Spark爲基石構建起來雲計算大數據中心普遍運行於Yahoo!、阿里淘寶、騰訊、百度、Sohu、華爲、優酷土豆、亞馬遜等公司的生產環境中。程序員
Hadoop、Yarn、Spark三者相輔相成算法
n Hadoop中的HDFS是大數據時代公認的首選數據存儲方式;sql
n Yarn是目前公認的最佳的分佈式集羣資源管理框架;數據庫
n Spark是目前公認的大數據統一計算平臺;apache
工業和信息化部電信研究院於2014年5月發佈的「大數據白皮書」中指出:編程
「2012 年美國聯邦政府就在全球率先推出「大數據行動計劃(Big data initiative)」,重點在基礎技術研究和公共部門應用上加大投入。在該計劃支持下,加州大學伯克利分校開發了完整的大數據開源軟件平臺「伯克利數據分析軟件棧(Berkeley Data Analytics Stack),其中的內存計算軟件Spark的性能比Hadoop 提升近百倍,對產業界大數據技術走向產生巨大影響」設計模式
----來源:工業和信息化部電信研究院瀏覽器
Spark是繼Hadoop以後,成爲替代Hadoop的下一代雲計算大數據核心技術。目前SPARK已經構建了本身的整個大數據處理生態系統,如流處理、圖技術、機器學習、Interactive Ad-Hoc Query等方面都有本身的技術,而且是Apache頂級Project,能夠預計的是2014年下半年到2015年在社區和商業應用上會有爆發式的增加。
國外一些大型互聯網公司已經部署了Spark。甚至連Hadoop的早期主要貢獻者Yahoo如今也在多個項目中部署使用Spark;國內的淘寶、優酷土豆、網易、Baidu、騰訊、皮皮網等已經使用Spark技術用於本身的商業生產系統中,國內外的應用開始愈來愈普遍。Spark正在逐漸走向成熟,並在這個領域扮演更加劇要的角色。
剛剛結束的2014 Spark Summit上的信息,Spark已經得到世界20家頂級公司的支持,這些公司中包括Intel、IBM等,同時更重要的是包括了最大的四個Hadoop發行商(Cloudera, Pivotal, MapR, Hortonworks)都提供了對很是強有力的支持Spark的支持,尤爲是是Hadoop的頭號發行商Cloudera在2014年7月份宣佈「Impala’s it for interactive SQL on Hadoop; everything else will move to Spark」,具體連接信息http://t.cn/Rvdsukb,而其實在此次Spark Summit以前,整個雲計算大數據就已經發聲鉅變:
1,2014年5月24日Pivotal宣佈了會把整個Spark stack包裝在Pivotal HD Hadoop發行版裏面。這意味這最大的四個Hadoop發行商(Cloudera, Pivotal, MapR, Hortonworks)都提供了對Spark的支持。http://t.cn/RvLF7aM星火燎原的開始;
2,Mahout前一階段表示從如今起他們將再也不接受任何形式的以MapReduce形式實現的算法,另一方面,Mahout宣佈新的算法基於Spark;
3,Cloudera的機器學習框架Oryx的執行引擎也將由Hadoop的MapReduce替換成Spark;
4,Google已經開始將負載從MapReduce轉移到Pregel和Dremel上;
5,FaceBook則將原來使用Hadoop的負載轉移到Presto上;
如今不少原來使用深度使用Hadoop的公司都在紛紛轉向Spark,國內的淘寶是典型的案例,國外的典型是Yahoo!,咱們以使用世界上使用Hadoop最典型的公司Yahoo!爲例,你們能夠從Yahoo!的數據處理的架構圖看出Yahoo!內部正在使用Spark:
不得不提的是Spark的「One stack to rule them all」的特性,Spark的特色之一就是用一個技術堆棧解決雲計算大數據中流處理、圖技術、機器學習、交互式查詢、偏差查詢等全部的問題,此時咱們只須要一個技術團隊經過Spark就能夠搞定一切問題,而若是基於Hadoop就須要分別構建實時流處理團隊、數據統計分析團隊、數據挖掘團隊等,並且這些團隊之間不管是代碼仍是經驗都不可相互借鑑,會造成巨大的成本,而使用Spark就不存在這個問題;
伴隨Spark技術的普及推廣,對專業人才的需求日益增長。Spark專業人才在將來也是煊赫一時,做爲Spark人員,須要掌握的技能模型以下:
Hadoop領域4個開創先河
1,全程覆蓋Hadoop的全部核心內容
2,全程注重動手實做,按部就班中掌握Hadoop企業級實戰技術
4,具有掌握Hadoop完整項目的分析、開發、部署的全過程的能力
Spark領域開創6個世界第一:
1, 這是世界上第一個全程覆蓋以Spark爲核心的大數據的全部內容的課程:包含Scala、Spark、Spark與Hadoop的結合、企業生產環境下的商業案例、框架源碼剖析等;
2, 這是世界上第一個Spark大數據零基礎課程:學習此課程不須要任何基礎,全部的內容在課程中都會細緻的剖析,學員不須要額外學習任何內容,從零基礎到直到進入企業工做;
3, 這是世界上第一個全程注重動手實做的大數據課程:經過不斷的案例實踐的按部就班中掌握Spark企業級實戰技術;
4, 這是世界上第一個完全而系統的講解Spark 1.0的課程:根據Spark的最新穩定版本,包括Spark集羣的構建,Spark架構設計、Spark內核剖析、Shark、Spark SQL、Spark Streaming、圖計算GraphX、機器學習、Spark on Yarn、JobServer等;
5, 這是世界上第一個使用Spark商業案例教學的課程:展現企業線上生產系統中應用Spark的成功案例,以及與現有企業BI平臺整合的方案 ;
6, 這是世界上第一個講解Spark與Hadoop完美結合的課程:目前而言,在世界的生產環境中每每是Spark和Hadoop並存,如何駕馭這種並存架構,在課程中給出了完美的解答,尤爲是經過企業案例講解,以達到最優化使用大數據系統潛能的目的;
王家林老師(郵箱18610086859@126.com 電話18610086859 QQ:1740415547)
中國目前惟一的移動互聯網和雲計算大數據集大成者;
雲計算大數據Spark亞太研究院院長和首席專家;
Spark亞太研究院院長和首席專家,Spark源碼級專家,對Spark潛心研究(2012年1月起)2年多後,在完成了對Spark的14不一樣版本的源碼的完全研究的同時不斷在實際環境中使用Spark的各類特性的基礎之上,編寫了世界上第一本系統性的Spark書籍並開設了世界上第一個系統性的Spark課程並開設了世界上第一個Spark高端課程(涵蓋Spark內核剖析、源碼解讀、性能優化和商業案例剖析)。Spark源碼研究狂熱愛好者,醉心於Spark的新型大數據處理模式改造和應用。
Hadoop源碼級專家,曾負責某知名公司的類Hadoop框架開發工做,專一於Hadoop一站式解決方案的提供,同時也是雲計算分佈式大數據處理的最先實踐者之一,Hadoop的狂熱愛好者,不斷的在實踐中用Hadoop解決不一樣領域的大數據的高效處理和存儲,如今正負責Hadoop在搜索引擎中的研發等,著有《雲計算分佈式大數據Hadoop實戰高手之路---從零開始》《雲計算分佈式大數據Hadoop實戰高手之路---高手崛起》《雲計算分佈式大數據Hadoop。實戰高手之路---高手之巔》等;
Android架構師、高級工程師、諮詢顧問、培訓專家;
通曉Android、HTML五、Hadoop,迷戀英語播音和健美;
致力於Android、HTML五、Hadoop的軟、硬、雲整合的一站式解決方案;
國內最先(2007年)從事於Android系統移植、軟硬整合、框架修改、應用程序軟件開發以及Android系統測試和應用軟件測試的技術專家和技術創業人員之一。
HTML5技術領域的最先實踐者(2009年)之一,成功爲多個機構實現多款自定義HTML5瀏覽器,參與某知名的HTML5瀏覽器研發;
超過10本的IT暢銷書做者;
致力於HTML5和Android的軟、硬、雲整合,智慧家庭,智能城市,精通Android安全,精通企業級Android應用開發實戰,對Android的HAL與AF框架的原理、IoC、設計模式有深入獨特的理解,精通C/C++組件經過JNI調用移植成爲Android應用框架的核心組件,擅長修改應用框架。精通JPA、Struts、Spring、MySQL, 熟練LAMP技術。2010年10月份至今爲多家企業提供Android技術諮詢服務及企業內部培訓。一直關注HTML5的發展動態和技術實現,擅長HTML5的Web開發、HTML5的遊戲開發、HTML5和本地的軟硬整合高級技術、HTML5與雲計算。成功對包括三星、摩托羅拉、華爲等世界500強企業實施Android底層移植、框架修改、應用開發等培訓。成功對平安保險、英特爾等實施HTML5培訓;撰寫了《大話企業級Android應用開發實戰》、《基於Android平臺的商業軟件---手機守護神開發全程實戰》、《Android 4.0網絡編程詳解》、《細說Android NDK編程》、《Android軟、硬、雲整合實戰》、《Android開發三劍客——UML、模式與測試》等多部Android著做和《雲計算分佈式大數據Hadoop實戰高手之路---從零開始》《雲計算分佈式大數據Hadoop實戰高手之路---高手崛起》《雲計算分佈式大數據Hadoop。實戰高手之路---高手之巔》等。 項目案例包括Android移植工做、Android上特定硬件的垂直整合、編寫Java虛擬機、Android框架修改、Android手機衛士、Android娛樂多媒體軟件(針對酷6、優酷、土豆等類型的網站)、大型B2C電子商務網站、大型SNS網站等。
Total Hadoop Professional |
|
培訓對象 |
1,對雲計算、分佈式數據存儲於處理、大數據等感興趣的朋友 2,傳統的數據庫,例如Oracle、MaySQL、DB2等的管理人員 3,Java、C等任意一門編程語言的開發者; 4,網站服務器端的開發人員 5,在校大學生、中專生或者剛畢業的學生 6,雲計算大數據從業者; 7,熟悉Hadoop生態系統,想了解和學習Hadoop與Spark整合在企業應用實戰案例的朋友; 8,系統架構師、系統分析師、高級程序員、資深開發人員; 9,牽涉到大數據處理的數據中心運行、規劃、設計負責人; 10,政府機關,金融保險、移動和互聯網等大數據來源單位的負責人; 11,高校、科研院所涉及到大數據與分佈式數據處理的項目負責人; 12,數據倉庫管理人員、建模人員,分析和開發人員、系統管理人員、數據庫管理人員以及對數據倉庫感興趣的其餘人員; |
參加課程基礎要求 |
對雲計算有強烈的興趣,可以看懂基本的Java語法。 |
培訓後的目標能力 |
直接上手Hadoop工做,具有直接勝任Hadoop開發工程師的能力;輕鬆駕馭以Spark爲核心的雲計算大數據實戰技術,從容解決95%以上的雲計算大數據業務需求; |
培訓技能目標 |
• 完全理解Hadoop表明的雲計算實現技術的能力 • 具有開發本身網盤的能力 • 具有修改HDFS具體源碼實現的能力 • • 掌握Spark的企業級開發的全部核心內容,包括Spark集羣的構建,Spark架構設計、Spark內核剖析、Shark、Spark SQL、Spark Streaming、圖計算GraphX、機器學習等; • 掌握Spark和Hadoop協同工做,可以經過Spark和Hadoop輕鬆應對大數據的業務需求; • 掌握企業線上生產系統中應用Spark /Hadoop成功案例,以及與現有企業BI平臺整合的方案; |
培訓職業目標 |
• Hadoop工程師,可以開發的Hadoop分佈式應用 • Hadoop完整項目的分析、開發、部署的全過程的能力 • Spark高級工程師 • 大數據項目總負責人 • 雲計算大數據CTO |
培訓內容
時間 |
內容 |
備註 |
第一天 |
第1個主題:Hadoop三問(完全理解Hadoop) 一、Hadoop爲何是雲計算分佈式大數據的事實開源標準軟件框架? 二、Hadoop的具體是如何工做? 三、Hadoop的生態架構和每一個模塊具體的功能是什麼?
第2個主題:Hadoop集羣與管理(具有構建並駕馭Hadoop集羣能力) 一、 Hadoop集羣的搭建 二、 Hadoop集羣的監控 三、 Hadoop集羣的管理 四、集羣下運行MapReduce程序
第3主題:完全掌握HDFS(具有開發本身網盤的能力) 一、HDFS體系架構剖析 二、NameNode、DataNode、SecondaryNameNode架構 三、保證NodeName高可靠性最佳實踐 四、DataNode中Block劃分的原理和具體存儲方式 五、修改Namenode、DataNode數據存儲位置 六、使用CLI操做HDFS 七、使用Java操做HDFS
第4主題:完全掌握HDFS(具有修改HDFS具體源碼實現的能力) 一、RPC架構剖析 二、源碼剖析Hadoop構建於RPC之上 三、源碼剖析HDFS的RPC實現 四、源碼剖析客戶端與與NameNode的RPC通訊
|
|
時間 |
內容 |
備註 |
次日 |
第1個主題:完全掌握MapReduce(從代碼的角度剖析MapReduce執行的具體過程並具有開發MapReduce代碼的能力) 一、MapReduce執行的經典步驟 二、wordcount運行過程解析 三、Mapper和Reducer剖析 四、自定義Writable 五、新舊API的區別以及如何使用就API 六、把MapReduce程序打包成Jar包並在命令行運行
第2個主題:完全掌握MapReduce(具有掌握Hadoop如何把HDFS文件轉化爲Key-Value讓供Map調用的能力) 一、Hadoop是如何把HDFS文件轉化爲鍵值對的? 二、源碼剖析Hadoop讀取HDFS文件並轉化爲鍵值對的過程實現 三、源碼剖析轉化爲鍵值對後供Map調用的過程實現
第3個主題:完全掌握MapReduce(具有掌握MapReduce內部運行和實現細節並改造MapReduce的能力) 一、Hadoop內置計數器及如何自定義計數器 二、Combiner具體的做用和使用以及其使用的限制條件 三、Partitioner的使用最佳實踐 四、 Hadoop內置的排序算法剖析 五、自定義排序算法 六、 Hadoop內置的分組算法 七、自定義分組算法 八、MapReduce常見場景和算法實現
第4個主題:某知名電商公司Hadoop實施全程揭祕(具有掌握商業級別Hadoop的分析、開發、部署的全過程的能力) 經過電商公司現場案例展現商業級別一個完整項目的分析、開發、部署的全過程 |
|
時間 |
內容 |
備註 |
第三天
|
第1個主題:YARN(具有理解和使用YARN的能力) 一、YARN的設計思想 二、YARN的核心組件 三、YARN的共組過程 四、YARN應用程序編寫
第2個主題:ResourceManager深度剖析(具有深入理解ResourceManager的能力) 一、ResourceManager的架構 二、ClientRMService 與AdminService 三、NodeManager 四、 Container 五、 Yarn的 HA機制
第3個主題:NodeManager深度剖析(具有掌握NodeManager及Container的能力) 一、NodeManager架構 二、Container Management 三、Container lifecycle 四、資源管理與隔離
第4堂課:Spark的架構設計(具有掌握Spark架構的能力)
1.1 Spark生態系統剖析 1.2 Spark的架構設計剖析 1.3 RDD計算流程解析 1.4 Spark的出色容錯機制 |
|
時間 |
內容 |
備註 |
第四天
|
第1堂課:深刻Spark內核 1 Spark集羣 2 任務調度 3 DAGScheduler 4 TaskScheduler 5 Task內部揭祕
第2堂課:Spark SQL 1 Parquet支持 2 DSL 3 SQL on RDD
第3堂課:Spark的機器學習 1 LinearRegression 2 K-Means 3 Collaborative Filtering
第4堂課:Spark的圖計算GraphX 1 Table Operators 2 Graph Operators 3GraphX |