課程介紹 程序員
2014年5月30日發佈了Spark 1.0.0版本,而本課程是世界上第一個Spark1.0.0企業級實踐課程,課程包含Spark的架構設計、Spark編程模型、Spark內核框架源碼剖析、Spark的廣播變量與累加器、Shark的原理和使用、Spark的機器學習、Spark的圖計算GraphX、Spark SQL、Spark實時流處理、Spark的優化、Spark on Yarn、JobServer等Spark 1.0.0全部的核心內容數據庫
最後以一個商業級別的Spark案例爲基礎,實戰展現商業級別Spark項目的架構設計、實現和優化;編程
培訓對象瀏覽器
1, 雲計算大數據從業者;安全
2, Hadoop使用者;性能優化
3, 系統架構師、系統分析師、高級程序員、資深開發人員;架構
4, 牽涉到大數據處理的數據中心運行、規劃、設計負責人;併發
5, 政府機關,金融保險、移動和互聯網等大數據來源單位的負責人;框架
6, 高校、科研院所涉及到大數據與分佈式數據處理的項目負責人;機器學習
7, 數據倉庫管理人員、建模人員,分析和開發人員、系統管理人員、數據庫管理人員以及對數據倉庫感興趣的其餘人員;
學員基礎
瞭解面向對象編程;
瞭解Linux的基本使用;
瞭解Scala語法
王家林老師
中國目前惟一的移動互聯網和雲計算大數據集大成者;
雲計算大數據Spark亞太研究院院長和首席專家;
聯繫郵箱:18610086859@126.com
聯繫電話:18610086859
Spark亞太研究院院長和首席專家,Spark源碼級專家,對Spark潛心研究(2012年1月起)2年多後,在完成了對Spark的13不一樣版本的源碼的完全研究的同時不斷在實際環境中使用Spark的各類特性的基礎之上,編寫了世界上第一本系統性的Spark書籍並開設了世界上第一個系統性的Spark課程並開設了世界上第一個Spark高端課程(涵蓋Spark內核剖析、源碼解讀、性能優化和商業案例剖析)。Spark源碼研究狂熱愛好者,醉心於Spark的新型大數據處理模式改造和應用。
Hadoop源碼級專家,曾負責某知名公司的類Hadoop框架開發工做,專一於Hadoop一站式解決方案的提供,同時也是雲計算分佈式大數據處理的最先實踐者之一,Hadoop的狂熱愛好者,不斷的在實踐中用Hadoop解決不一樣領域的大數據的高效處理和存儲,如今正負責Hadoop在搜索引擎中的研發等,著有《雲計算分佈式大數據Hadoop實戰高手之路---從零開始》《雲計算分佈式大數據Hadoop實戰高手之路---高手崛起》《雲計算分佈式大數據Hadoop。實戰高手之路---高手之巔》等;
Android架構師、高級工程師、諮詢顧問、培訓專家;
通曉Android、HTML五、Hadoop,迷戀英語播音和健美;
致力於Android、HTML五、Hadoop的軟、硬、雲整合的一站式解決方案;
國內最先(2007年)從事於Android系統移植、軟硬整合、框架修改、應用程序軟件開發以及Android系統測試和應用軟件測試的技術專家和技術創業人員之一。
HTML5技術領域的最先實踐者(2009年)之一,成功爲多個機構實現多款自定義HTML5瀏覽器,參與某知名的HTML5瀏覽器研發;
超過10本的IT暢銷書做者;
培訓內容
第一天 |
第1堂課:Spark的架構設計 1.1 Spark生態系統剖析 1.2 Spark的架構設計剖析 1.3 RDD計算流程解析 1.4 Spark的出色容錯機制
第2堂課:Spark編程模型 2.1 RDD 2.2 transformation 2.3 action 2.4 lineage 2.5寬依賴與窄依賴
第3堂課:深刻Spark內核 3.1 Spark集羣 3.2 任務調度 3.3 DAGScheduler 3.4 TaskScheduler 3.5 Task內部揭祕
第4堂課:Spark的廣播變量與累加器 4.1 廣播變量的機制 4.2 廣播變量使用最佳實踐 4.3 累加器的機制 4.4 累加器使用的最佳實踐
第5堂課:Spark多語言編程 5.1 PySpark API 5.2 使用 Python編寫Spark程序 5.3 Java 8的函數式編程 5.4 使用Java 8編寫Spark程序 5.5 Spark編程語言最佳選擇:Scala 5.6 用Scala演繹Spark編程藝術
第6堂課:SparkContext解析和數據加載以及存儲 6.1 源碼剖析SparkContext 6.2 Scala、Java、Python使用SparkContext 6.4 加載數據成爲RDD 6.5 把數據物化 |
|
時間 |
內 容 |
備註 |
次日 |
第7堂課:深刻實戰RDD 7.1 DAG 7.2 深刻實戰各類Scala RDD Function 7.3 Spark Java RDD Function 7.4 RDD的優化問題
第8堂課:Shark的原理和使用 8.1 Shark與Hive 8.2 安裝和配置Shark 8.3 使用Shark處理數據 8.4 在Spark程序中使用Shark Queries 8.5 SharkServer 8.6 思考Shark架構
第9堂課:Spark的機器學習 9.1 LinearRegression 9.2 K-Means 9.3 Collaborative Filtering
第10堂課:Spark的圖計算GraphX 10.1 Table Operators 10.2 Graph Operators 10.3 GraphX
第11堂課:Spark SQL 11.1 Parquet支持 11.2 DSL 11.3 SQL on RDD
|
|
時間 |
內 容 |
備註 |
第三天 |
第12堂課:Spark實時流處理 12.1 DStream 12.2 transformation 12.3 checkpoint 12.4 性能優化
第13堂課:Spark程序的測試 13.1 編寫可測試的Spark程序 13.2 Spark測試框架解析 13.3 Spark測試代碼實戰
第14堂課:Spark的優化 14.1 Logs 14.2 併發 14.3 內存 14.4 垃圾回收 14.5 序列化 14.6 安全
第15堂課:Spark on Yarn 15.1 Spark on Yarn的架構原理 15.2 Spark on Yarn的最佳實踐
第16堂課:JobServer 16.1 JobServer的架構設計 16.2 JobServer提供的接口 16.3 JobServer最佳實踐
第17堂課:Spark項目案例實戰 17.1 Spark項目的最佳架構模式 17.2 案例的介紹和架構 17.3 案例的源碼實現 17.4 調優 |