決勝大數據時代:Hadoop&Yarn&Spark企業級最佳實踐(3天)

Hadoop是雲計算的事實標準軟件框架,是雲計算理念、機制和商業化的具體實現,是整個雲計算技術學習中公認的核心和最具備價值內容。html

Yarn是目前公認的最佳的分佈式集羣資源管理框架;node

       Mahout是目前數據挖掘領域的王者;程序員

       工業和信息化部電信研究院於2014年5月發佈的「大數據白皮書」中指出:算法

「2012 年美國聯邦政府就在全球率先推出「大數據行動計劃(Big data initiative)」,重點在基礎技術研究和公共部門應用上加大投入。在該計劃支持下,加州大學伯克利分校開發了完整的大數據開源軟件平臺「伯克利數據分析軟件棧(Berkeley Data Analytics Stack),其中的內存計算軟件Spark的性能比Hadoop 提升近百倍,對產業界大數據技術走向產生巨大影響」sql

                     ----來源:工業和信息化部電信研究院數據庫

 

 

 

Spark是繼Hadoop以後,成爲替代Hadoop的下一代雲計算大數據核心技術。目前SPARK已經構建了本身的整個大數據處理生態系統,如流處理、圖技術、機器學習、Interactive Ad-Hoc Query等方面都有本身的技術,而且是Apache頂級Project,能夠預計的是2014年下半年到2015年在社區和商業應用上會有爆發式的增加。apache

 

 

國外一些大型互聯網公司已經部署了Spark。甚至連Hadoop的早期主要貢獻者Yahoo如今也在多個項目中部署使用Spark;國內的淘寶、優酷土豆、網易、Baidu、騰訊、皮皮網等已經使用Spark技術用於本身的商業生產系統中,國內外的應用開始愈來愈普遍。Spark正在逐漸走向成熟,並在這個領域扮演更加劇要的角色。編程

剛剛結束的2014 Spark Summit上的信息,Spark已經得到世界20家頂級公司的支持,這些公司中包括Intel、IBM等,同時更重要的是包括了最大的四個Hadoop發行商(Cloudera, Pivotal, MapR, Hortonworks)都提供了對很是強有力的支持Spark的支持,尤爲是是Hadoop的頭號發行商Cloudera在2014年7月份宣佈「Impala’s it for interactive SQL on Hadoop; everything else will move to Spark」,具體連接信息http://t.cn/Rvdsukb,而其實在此次Spark Summit以前,整個雲計算大數據就已經發聲鉅變:設計模式

1,2014年5月24日Pivotal宣佈了會把整個Spark stack包裝在Pivotal HD Hadoop發行版裏面。這意味這最大的四個Hadoop發行商(Cloudera, Pivotal, MapR, Hortonworks)都提供了對Spark的支持。http://t.cn/RvLF7aM星火燎原的開始;瀏覽器

2,Mahout前一階段表示從如今起他們將再也不接受任何形式的以MapReduce形式實現的算法,另一方面,Mahout宣佈新的算法基於Spark;

3,Cloudera的機器學習框架Oryx的執行引擎也將由Hadoop的MapReduce替換成Spark;

4,Google已經開始將負載從MapReduce轉移到Pregel和Dremel上;

5,FaceBook則將原來使用Hadoop的負載轉移到Presto上;

 

如今不少原來使用深度使用Hadoop的公司都在紛紛轉向Spark,國內的淘寶是典型的案例,國外的典型是Yahoo!,咱們以使用世界上使用Hadoop最典型的公司Yahoo!爲例,你們能夠從Yahoo!的數據處理的架構圖看出Yahoo!內部正在使用Spark:

 

不得不提的是Spark的「One stack to rule them all」的特性,Spark的特色之一就是用一個技術堆棧解決雲計算大數據中流處理、圖技術、機器學習、交互式查詢、偏差查詢等全部的問題,此時咱們只須要一個技術團隊經過Spark就能夠搞定一切問題,而若是基於Hadoop就須要分別構建實時流處理團隊、數據統計分析團隊、數據挖掘團隊等,並且這些團隊之間不管是代碼仍是經驗都不可相互借鑑,會造成巨大的成本,而使用Spark就不存在這個問題;

 

王家林老師(郵箱18610086859@126.com 電話18610086859 QQ:1740415547

中國目前惟一的移動互聯網和雲計算大數據集大成者;

雲計算大數據Spark亞太研究院院長和首席專家;

 

Spark亞太研究院院長和首席專家,Spark源碼級專家,對Spark潛心研究(2012年1月起)2年多後,在完成了對Spark的14不一樣版本的源碼的完全研究的同時不斷在實際環境中使用Spark的各類特性的基礎之上,編寫了世界上第一本系統性的Spark書籍並開設了世界上第一個系統性的Spark課程並開設了世界上第一個Spark高端課程(涵蓋Spark內核剖析、源碼解讀、性能優化和商業案例剖析)。Spark源碼研究狂熱愛好者,醉心於Spark的新型大數據處理模式改造和應用。

Hadoop源碼級專家,曾負責某知名公司的類Hadoop框架開發工做,專一於Hadoop一站式解決方案的提供,同時也是雲計算分佈式大數據處理的最先實踐者之一,Hadoop的狂熱愛好者,不斷的在實踐中用Hadoop解決不一樣領域的大數據的高效處理和存儲,如今正負責Hadoop在搜索引擎中的研發等,著有《雲計算分佈式大數據Hadoop實戰高手之路---從零開始》《雲計算分佈式大數據Hadoop實戰高手之路---高手崛起》《雲計算分佈式大數據Hadoop。實戰高手之路---高手之巔》等;

 

Android架構師、高級工程師、諮詢顧問、培訓專家;

通曉Android、HTML五、Hadoop,迷戀英語播音和健美;

致力於Android、HTML五、Hadoop的軟、硬、雲整合的一站式解決方案;

國內最先(2007年)從事於Android系統移植、軟硬整合、框架修改、應用程序軟件開發以及Android系統測試和應用軟件測試的技術專家和技術創業人員之一。

 

HTML5技術領域的最先實踐者(2009年)之一,成功爲多個機構實現多款自定義HTML5瀏覽器,參與某知名的HTML5瀏覽器研發;

超過10本的IT暢銷書做者;

致力於HTML5和Android的軟、硬、雲整合,智慧家庭,智能城市,精通Android安全,精通企業級Android應用開發實戰,對Android的HAL與AF框架的原理、IoC、設計模式有深入獨特的理解,精通C/C++組件經過JNI調用移植成爲Android應用框架的核心組件,擅長修改應用框架。精通JPA、Struts、Spring、MySQL, 熟練LAMP技術。2010年10月份至今爲多家企業提供Android技術諮詢服務及企業內部培訓。一直關注HTML5的發展動態和技術實現,擅長HTML5的Web開發、HTML5的遊戲開發、HTML5和本地的軟硬整合高級技術、HTML5與雲計算。成功對包括三星、摩托羅拉、華爲等世界500強企業實施Android底層移植、框架修改、應用開發等培訓。成功對平安保險、英特爾等實施HTML5培訓;撰寫了《大話企業級Android應用開發實戰》、《基於Android平臺的商業軟件---手機守護神開發全程實戰》、《Android 4.0網絡編程詳解》、《細說Android NDK編程》、《Android軟、硬、雲整合實戰》、《Android開發三劍客——UML、模式與測試》等多部Android著做和《雲計算分佈式大數據Hadoop實戰高手之路---從零開始》《雲計算分佈式大數據Hadoop實戰高手之路---高手崛起》《雲計算分佈式大數據Hadoop。實戰高手之路---高手之巔》等。    項目案例包括Android移植工做、Android上特定硬件的垂直整合、編寫Java虛擬機、Android框架修改、Android手機衛士、Android娛樂多媒體軟件(針對酷6、優酷、土豆等類型的網站)、大型B2C電子商務網站、大型SNS網站等。

 

Total Hadoop Professional

培訓對象

1,對雲計算、分佈式數據存儲於處理、大數據等感興趣的朋友

2,傳統的數據庫,例如Oracle、MaySQL、DB2等的管理人員

3,Java、C等任意一門編程語言的開發者;

4,網站服務器端的開發人員

5,在校大學生、中專生或者剛畢業的學生

6,雲計算大數據從業者;

7,熟悉Hadoop生態系統,想了解和學習Hadoop與Spark整合在企業應用實戰案例的朋友;

8,系統架構師、系統分析師、高級程序員、資深開發人員;

9,牽涉到大數據處理的數據中心運行、規劃、設計負責人;

10,政府機關,金融保險、移動和互聯網等大數據來源單位的負責人;

11,高校、科研院所涉及到大數據與分佈式數據處理的項目負責人;

12,數據倉庫管理人員、建模人員,分析和開發人員、系統管理人員、數據庫管理人員以及對數據倉庫感興趣的其餘人員;

參加課程基礎要求

對雲計算有強烈的興趣,可以看懂基本的Java語法。

培訓後的目標能力

直接上手Hadoop工做,具有直接勝任Hadoop開發工程師的能力;理解以Mahout和Spark爲核心的雲計算大數據實戰技術,從容解決95%以上的雲計算大數據業務需求;

培訓技能目標

• 完全理解Hadoop表明的雲計算實現技術的能力

• 具有開發本身網盤的能力

• 具有修改HDFS具體源碼實現的能力
• 從代碼的角度剖析MapReduce執行的具體過程並具有開發MapReduce代碼的能力
• 具有掌握Hadoop如何把HDFS文件轉化爲Key-Value讓供Map調用的能力
• 具有掌握MapReduce內部運行和實現細節並改造MapReduce的能力

• 掌握Spark的內核的能力;

培訓職業目標

• Hadoop工程師,可以開發的Hadoop分佈式應用

• Hadoop完整項目的分析、開發、部署的全過程的能力

• Mahout和Spark高級工程師

• 大數據項目總負責人

• 雲計算大數據CTO

 

培訓內容

時間

內容

備註

第一天

第1個主題:Hadoop三問(完全理解Hadoop)

一、Hadoop爲何是雲計算分佈式大數據的事實開源標準軟件框架?

二、Hadoop的具體是如何工做?

三、Hadoop的生態架構和每一個模塊具體的功能是什麼?

 

第2個主題:Hadoop集羣與管理(具有構建並駕馭Hadoop集羣能力)

一、 Hadoop集羣的搭建

二、 Hadoop集羣的監控

三、 Hadoop集羣的管理

四、集羣下運行MapReduce程序

 

第3主題:完全掌握HDFS(具有開發本身網盤的能力)

一、HDFS體系架構剖析 

二、NameNode、DataNode、SecondaryNameNode架構

三、保證NodeName高可靠性最佳實踐

四、DataNode中Block劃分的原理和具體存儲方式

五、修改Namenode、DataNode數據存儲位置

六、使用CLI操做HDFS

七、使用Java操做HDFS

 

第4主題:完全掌握HDFS(具有修改HDFS具體源碼實現的能力)

一、RPC架構剖析  

二、源碼剖析Hadoop構建於RPC之上

三、源碼剖析HDFS的RPC實現

四、源碼剖析客戶端與與NameNode的RPC通訊

 

 

時間

內容

備註

 

 

 

 

 

 

 

 

 

 

 

 

 

 

次日

第1個主題:完全掌握MapReduce(從代碼的角度剖析MapReduce執行的具體過程並具有開發MapReduce代碼的能力)

一、MapReduce執行的經典步驟 

二、wordcount運行過程解析

三、Mapper和Reducer剖析

四、自定義Writable

五、新舊API的區別以及如何使用就API

六、把MapReduce程序打包成Jar包並在命令行運行

 

第2個主題:完全掌握MapReduce(具有掌握Hadoop如何把HDFS文件轉化爲Key-Value讓供Map調用的能力)

一、Hadoop是如何把HDFS文件轉化爲鍵值對的?

二、源碼剖析Hadoop讀取HDFS文件並轉化爲鍵值對的過程實現

三、源碼剖析轉化爲鍵值對後供Map調用的過程實現

 

第3個主題:完全掌握MapReduce(具有掌握MapReduce內部運行和實現細節並改造MapReduce的能力)

一、Hadoop內置計數器及如何自定義計數器

二、Combiner具體的做用和使用以及其使用的限制條件

三、Partitioner的使用最佳實踐

四、 Hadoop內置的排序算法剖析

五、自定義排序算法

六、 Hadoop內置的分組算法

七、自定義分組算法

八、 MapReduce常見場景和算法實現

 

第5個主題:某知名電商公司Hadoop實施全程揭祕(具有掌握商業級別Hadoop的分析、開發、部署的全過程的能力)

經過電商公司現場案例展現商業級別一個完整項目的分析、開發、部署的全過程

 

時間

內容

備註

 

 

 

 

 

 

 

 

 

第三天

 

 

 

 

 

 

 

 

 

 

第1個主題:YARN(具有理解和使用YARN的能力)

一、YARN的設計思想                          

二、YARN的核心組件

三、YARN的共組過程

四、YARN應用程序編寫

 

第2個主題:ResourceManager深度剖析(具有深入理解ResourceManager的能力)

一、ResourceManager的架構

二、ClientRMService 與AdminService 

三、NodeManager

四、 Container

五、 Yarn的 HA機制

 

第3個主題:NodeManager深度剖析(具有掌握NodeManager及Container的能力)

一、NodeManager架構

二、Container Management

三、Container  lifecycle

四、資源管理與隔離

 

第4堂課:Spark的架構設計(具有掌握Spark架構的能力)

 

1.1 Spark生態系統剖析

1.2 Spark的架構設計剖析

1.3 RDD計算流程解析

1.4 Spark的出色容錯機制

相關文章
相關標籤/搜索