決勝大數據時代：Hadoop&Yarn&Spark企業級最佳實踐(3天)

時間 2019-11-08

標籤決勝數據時代 hadoop&yarn&spark hadoop yarn spark 企業最佳實踐 3天欄目 Hadoop 简体版

原文原文鏈接

Hadoop是雲計算的事實標準軟件框架，是雲計算理念、機制和商業化的具體實現，是整個雲計算技術學習中公認的核心和最具備價值內容。html

Yarn是目前公認的最佳的分佈式集羣資源管理框架；node

Mahout是目前數據挖掘領域的王者；程序員

工業和信息化部電信研究院於2014年5月發佈的「大數據白皮書」中指出：算法

「2012 年美國聯邦政府就在全球率先推出「大數據行動計劃（Big data initiative）」，重點在基礎技術研究和公共部門應用上加大投入。在該計劃支持下，加州大學伯克利分校開發了完整的大數據開源軟件平臺「伯克利數據分析軟件棧（Berkeley Data Analytics Stack），其中的內存計算軟件Spark的性能比Hadoop 提升近百倍，對產業界大數據技術走向產生巨大影響」sql

----來源：工業和信息化部電信研究院數據庫

Spark是繼Hadoop以後，成爲替代Hadoop的下一代雲計算大數據核心技術。目前SPARK已經構建了本身的整個大數據處理生態系統，如流處理、圖技術、機器學習、Interactive Ad-Hoc Query等方面都有本身的技術，而且是Apache頂級Project，能夠預計的是2014年下半年到2015年在社區和商業應用上會有爆發式的增加。apache

國外一些大型互聯網公司已經部署了Spark。甚至連Hadoop的早期主要貢獻者Yahoo如今也在多個項目中部署使用Spark；國內的淘寶、優酷土豆、網易、Baidu、騰訊、皮皮網等已經使用Spark技術用於本身的商業生產系統中，國內外的應用開始愈來愈普遍。Spark正在逐漸走向成熟，並在這個領域扮演更加劇要的角色。編程

剛剛結束的2014 Spark Summit上的信息，Spark已經得到世界20家頂級公司的支持，這些公司中包括Intel、IBM等，同時更重要的是包括了最大的四個Hadoop發行商（Cloudera, Pivotal, MapR, Hortonworks）都提供了對很是強有力的支持Spark的支持，尤爲是是Hadoop的頭號發行商Cloudera在2014年7月份宣佈「Impala’s it for interactive SQL on Hadoop; everything else will move to Spark」，具體連接信息http://t.cn/Rvdsukb，而其實在此次Spark Summit以前，整個雲計算大數據就已經發聲鉅變：設計模式

1，2014年5月24日Pivotal宣佈了會把整個Spark stack包裝在Pivotal HD Hadoop發行版裏面。這意味這最大的四個Hadoop發行商（Cloudera, Pivotal, MapR, Hortonworks）都提供了對Spark的支持。http://t.cn/RvLF7aM星火燎原的開始；瀏覽器

2，Mahout前一階段表示從如今起他們將再也不接受任何形式的以MapReduce形式實現的算法，另一方面，Mahout宣佈新的算法基於Spark；

3，Cloudera的機器學習框架Oryx的執行引擎也將由Hadoop的MapReduce替換成Spark；

4，Google已經開始將負載從MapReduce轉移到Pregel和Dremel上；

5，FaceBook則將原來使用Hadoop的負載轉移到Presto上；

如今不少原來使用深度使用Hadoop的公司都在紛紛轉向Spark，國內的淘寶是典型的案例，國外的典型是Yahoo！，咱們以使用世界上使用Hadoop最典型的公司Yahoo！爲例，你們能夠從Yahoo！的數據處理的架構圖看出Yahoo！內部正在使用Spark：

不得不提的是Spark的「One stack to rule them all」的特性，Spark的特色之一就是用一個技術堆棧解決雲計算大數據中流處理、圖技術、機器學習、交互式查詢、偏差查詢等全部的問題，此時咱們只須要一個技術團隊經過Spark就能夠搞定一切問題，而若是基於Hadoop就須要分別構建實時流處理團隊、數據統計分析團隊、數據挖掘團隊等，並且這些團隊之間不管是代碼仍是經驗都不可相互借鑑，會造成巨大的成本，而使用Spark就不存在這個問題；

王家林老師（郵箱18610086859@126.com 電話18610086859 QQ:1740415547）

中國目前惟一的移動互聯網和雲計算大數據集大成者；

雲計算大數據Spark亞太研究院院長和首席專家；

Spark亞太研究院院長和首席專家，Spark源碼級專家，對Spark潛心研究（2012年1月起）2年多後，在完成了對Spark的14不一樣版本的源碼的完全研究的同時不斷在實際環境中使用Spark的各類特性的基礎之上，編寫了世界上第一本系統性的Spark書籍並開設了世界上第一個系統性的Spark課程並開設了世界上第一個Spark高端課程（涵蓋Spark內核剖析、源碼解讀、性能優化和商業案例剖析）。Spark源碼研究狂熱愛好者，醉心於Spark的新型大數據處理模式改造和應用。

Hadoop源碼級專家，曾負責某知名公司的類Hadoop框架開發工做，專一於Hadoop一站式解決方案的提供，同時也是雲計算分佈式大數據處理的最先實踐者之一，Hadoop的狂熱愛好者，不斷的在實踐中用Hadoop解決不一樣領域的大數據的高效處理和存儲，如今正負責Hadoop在搜索引擎中的研發等，著有《雲計算分佈式大數據Hadoop實戰高手之路---從零開始》《雲計算分佈式大數據Hadoop實戰高手之路---高手崛起》《雲計算分佈式大數據Hadoop。實戰高手之路---高手之巔》等；

Android架構師、高級工程師、諮詢顧問、培訓專家；

通曉Android、HTML五、Hadoop，迷戀英語播音和健美；

致力於Android、HTML五、Hadoop的軟、硬、雲整合的一站式解決方案；

國內最先（2007年）從事於Android系統移植、軟硬整合、框架修改、應用程序軟件開發以及Android系統測試和應用軟件測試的技術專家和技術創業人員之一。

HTML5技術領域的最先實踐者（2009年）之一,成功爲多個機構實現多款自定義HTML5瀏覽器，參與某知名的HTML5瀏覽器研發；

超過10本的IT暢銷書做者；

致力於HTML5和Android的軟、硬、雲整合，智慧家庭，智能城市，精通Android安全，精通企業級Android應用開發實戰，對Android的HAL與AF框架的原理、IoC、設計模式有深入獨特的理解，精通C/C++組件經過JNI調用移植成爲Android應用框架的核心組件，擅長修改應用框架。精通JPA、Struts、Spring、MySQL, 熟練LAMP技術。2010年10月份至今爲多家企業提供Android技術諮詢服務及企業內部培訓。一直關注HTML5的發展動態和技術實現，擅長HTML5的Web開發、HTML5的遊戲開發、HTML5和本地的軟硬整合高級技術、HTML5與雲計算。成功對包括三星、摩托羅拉、華爲等世界500強企業實施Android底層移植、框架修改、應用開發等培訓。成功對平安保險、英特爾等實施HTML5培訓；撰寫了《大話企業級Android應用開發實戰》、《基於Android平臺的商業軟件---手機守護神開發全程實戰》、《Android 4.0網絡編程詳解》、《細說Android NDK編程》、《Android軟、硬、雲整合實戰》、《Android開發三劍客——UML、模式與測試》等多部Android著做和《雲計算分佈式大數據Hadoop實戰高手之路---從零開始》《雲計算分佈式大數據Hadoop實戰高手之路---高手崛起》《雲計算分佈式大數據Hadoop。實戰高手之路---高手之巔》等。項目案例包括Android移植工做、Android上特定硬件的垂直整合、編寫Java虛擬機、Android框架修改、Android手機衛士、Android娛樂多媒體軟件（針對酷6、優酷、土豆等類型的網站）、大型B2C電子商務網站、大型SNS網站等。

Total Hadoop Professional
培訓對象	1，對雲計算、分佈式數據存儲於處理、大數據等感興趣的朋友 2，傳統的數據庫，例如Oracle、MaySQL、DB2等的管理人員 3，Java、C等任意一門編程語言的開發者； 4，網站服務器端的開發人員 5，在校大學生、中專生或者剛畢業的學生 6，雲計算大數據從業者； 7，熟悉Hadoop生態系統，想了解和學習Hadoop與Spark整合在企業應用實戰案例的朋友； 8，系統架構師、系統分析師、高級程序員、資深開發人員； 9，牽涉到大數據處理的數據中心運行、規劃、設計負責人； 10，政府機關，金融保險、移動和互聯網等大數據來源單位的負責人； 11，高校、科研院所涉及到大數據與分佈式數據處理的項目負責人； 12，數據倉庫管理人員、建模人員，分析和開發人員、系統管理人員、數據庫管理人員以及對數據倉庫感興趣的其餘人員；
參加課程基礎要求	對雲計算有強烈的興趣，可以看懂基本的Java語法。
培訓後的目標能力	直接上手Hadoop工做，具有直接勝任Hadoop開發工程師的能力；理解以Mahout和Spark爲核心的雲計算大數據實戰技術，從容解決95%以上的雲計算大數據業務需求；
培訓技能目標	• 完全理解Hadoop表明的雲計算實現技術的能力 • 具有開發本身網盤的能力 • 具有修改HDFS具體源碼實現的能力 • 從代碼的角度剖析MapReduce執行的具體過程並具有開發MapReduce代碼的能力 • 具有掌握Hadoop如何把HDFS文件轉化爲Key-Value讓供Map調用的能力 • 具有掌握MapReduce內部運行和實現細節並改造MapReduce的能力 • 掌握Spark的內核的能力；
培訓職業目標	• Hadoop工程師，可以開發的Hadoop分佈式應用 • Hadoop完整項目的分析、開發、部署的全過程的能力 • Mahout和Spark高級工程師 • 大數據項目總負責人 • 雲計算大數據CTO

培訓內容

時間	內容	備註
第一天	第1個主題：Hadoop三問（完全理解Hadoop）一、Hadoop爲何是雲計算分佈式大數據的事實開源標準軟件框架？二、Hadoop的具體是如何工做？三、Hadoop的生態架構和每一個模塊具體的功能是什麼？第2個主題：Hadoop集羣與管理（具有構建並駕馭Hadoop集羣能力）一、 Hadoop集羣的搭建二、 Hadoop集羣的監控三、 Hadoop集羣的管理四、集羣下運行MapReduce程序第3主題：完全掌握HDFS(具有開發本身網盤的能力) 一、HDFS體系架構剖析二、NameNode、DataNode、SecondaryNameNode架構三、保證NodeName高可靠性最佳實踐四、DataNode中Block劃分的原理和具體存儲方式五、修改Namenode、DataNode數據存儲位置六、使用CLI操做HDFS 七、使用Java操做HDFS 第4主題：完全掌握HDFS(具有修改HDFS具體源碼實現的能力) 一、RPC架構剖析二、源碼剖析Hadoop構建於RPC之上三、源碼剖析HDFS的RPC實現四、源碼剖析客戶端與與NameNode的RPC通訊
時間	內容	備註
次日	第1個主題：完全掌握MapReduce（從代碼的角度剖析MapReduce執行的具體過程並具有開發MapReduce代碼的能力）一、MapReduce執行的經典步驟二、wordcount運行過程解析三、Mapper和Reducer剖析四、自定義Writable 五、新舊API的區別以及如何使用就API 六、把MapReduce程序打包成Jar包並在命令行運行第2個主題：完全掌握MapReduce（具有掌握Hadoop如何把HDFS文件轉化爲Key-Value讓供Map調用的能力）一、Hadoop是如何把HDFS文件轉化爲鍵值對的？二、源碼剖析Hadoop讀取HDFS文件並轉化爲鍵值對的過程實現三、源碼剖析轉化爲鍵值對後供Map調用的過程實現第3個主題：完全掌握MapReduce（具有掌握MapReduce內部運行和實現細節並改造MapReduce的能力）一、Hadoop內置計數器及如何自定義計數器二、Combiner具體的做用和使用以及其使用的限制條件三、Partitioner的使用最佳實踐四、 Hadoop內置的排序算法剖析五、自定義排序算法六、 Hadoop內置的分組算法七、自定義分組算法八、 MapReduce常見場景和算法實現第5個主題：某知名電商公司Hadoop實施全程揭祕（具有掌握商業級別Hadoop的分析、開發、部署的全過程的能力）經過電商公司現場案例展現商業級別一個完整項目的分析、開發、部署的全過程
時間	內容	備註
第三天	第1個主題：YARN（具有理解和使用YARN的能力）一、YARN的設計思想二、YARN的核心組件三、YARN的共組過程四、YARN應用程序編寫第2個主題：ResourceManager深度剖析（具有深入理解ResourceManager的能力）一、ResourceManager的架構二、ClientRMService 與AdminService 三、NodeManager 四、 Container 五、 Yarn的 HA機制第3個主題：NodeManager深度剖析（具有掌握NodeManager及Container的能力）一、NodeManager架構二、Container Management 三、Container lifecycle 四、資源管理與隔離第4堂課：Spark的架構設計(具有掌握Spark架構的能力) 1.1 Spark生態系統剖析 1.2 Spark的架構設計剖析 1.3 RDD計算流程解析 1.4 Spark的出色容錯機制