Spark 1.0.0企業級開發動手：實戰世界上第一個Spark 1.0.0課程，涵蓋Spark 1.0.0全部的企業級開發技術

時間 2019-11-11

標籤 spark 1.0.0 企業開發動手實戰世界上第一個課程涵蓋全部技術欄目 Spark 简体版

原文原文鏈接

課程介紹 程序員

2014年5月30日發佈了Spark 1.0.0版本，而本課程是世界上第一個Spark1.0.0企業級實踐課程，課程包含Spark的架構設計、Spark編程模型、Spark內核框架源碼剖析、Spark的廣播變量與累加器、Shark的原理和使用、Spark的機器學習、Spark的圖計算GraphX、Spark SQL、Spark實時流處理、Spark的優化、Spark on Yarn、JobServer等Spark 1.0.0全部的核心內容數據庫

最後以一個商業級別的Spark案例爲基礎，實戰展現商業級別Spark項目的架構設計、實現和優化；編程

培訓對象瀏覽器

1，雲計算大數據從業者；安全

2， Hadoop使用者；性能優化

3，系統架構師、系統分析師、高級程序員、資深開發人員；架構

4，牽涉到大數據處理的數據中心運行、規劃、設計負責人；併發

5，政府機關，金融保險、移動和互聯網等大數據來源單位的負責人；框架

6，高校、科研院所涉及到大數據與分佈式數據處理的項目負責人；機器學習

7，數據倉庫管理人員、建模人員，分析和開發人員、系統管理人員、數據庫管理人員以及對數據倉庫感興趣的其餘人員；

學員基礎

瞭解面向對象編程；

瞭解Linux的基本使用；

瞭解Scala語法

王家林老師

中國目前惟一的移動互聯網和雲計算大數據集大成者；

雲計算大數據Spark亞太研究院院長和首席專家；

聯繫郵箱：18610086859@126.com
聯繫電話：18610086859

Spark亞太研究院院長和首席專家，Spark源碼級專家，對Spark潛心研究（2012年1月起）2年多後，在完成了對Spark的13不一樣版本的源碼的完全研究的同時不斷在實際環境中使用Spark的各類特性的基礎之上，編寫了世界上第一本系統性的Spark書籍並開設了世界上第一個系統性的Spark課程並開設了世界上第一個Spark高端課程（涵蓋Spark內核剖析、源碼解讀、性能優化和商業案例剖析）。Spark源碼研究狂熱愛好者，醉心於Spark的新型大數據處理模式改造和應用。

Hadoop源碼級專家，曾負責某知名公司的類Hadoop框架開發工做，專一於Hadoop一站式解決方案的提供，同時也是雲計算分佈式大數據處理的最先實踐者之一，Hadoop的狂熱愛好者，不斷的在實踐中用Hadoop解決不一樣領域的大數據的高效處理和存儲，如今正負責Hadoop在搜索引擎中的研發等，著有《雲計算分佈式大數據Hadoop實戰高手之路---從零開始》《雲計算分佈式大數據Hadoop實戰高手之路---高手崛起》《雲計算分佈式大數據Hadoop。實戰高手之路---高手之巔》等；

Android架構師、高級工程師、諮詢顧問、培訓專家；

通曉Android、HTML五、Hadoop，迷戀英語播音和健美；

致力於Android、HTML五、Hadoop的軟、硬、雲整合的一站式解決方案；

國內最先（2007年）從事於Android系統移植、軟硬整合、框架修改、應用程序軟件開發以及Android系統測試和應用軟件測試的技術專家和技術創業人員之一。

HTML5技術領域的最先實踐者（2009年）之一,成功爲多個機構實現多款自定義HTML5瀏覽器，參與某知名的HTML5瀏覽器研發；

超過10本的IT暢銷書做者；

培訓內容

第一天

第1堂課：Spark的架構設計

1.1 Spark生態系統剖析

1.2 Spark的架構設計剖析

1.3 RDD計算流程解析

1.4 Spark的出色容錯機制

第2堂課：Spark編程模型

2.1 RDD

2.2 transformation

2.3 action

2.4 lineage

2.5寬依賴與窄依賴

第3堂課：深刻Spark內核

3.1 Spark集羣

3.2 任務調度

3.3 DAGScheduler

3.4 TaskScheduler

3.5 Task內部揭祕

第4堂課：Spark的廣播變量與累加器

4.1 廣播變量的機制

4.2 廣播變量使用最佳實踐

4.3 累加器的機制

4.4 累加器使用的最佳實踐

第5堂課：Spark多語言編程

5.1 PySpark API

5.2 使用 Python編寫Spark程序

5.3 Java 8的函數式編程

5.4 使用Java 8編寫Spark程序

5.5 Spark編程語言最佳選擇：Scala

5.6 用Scala演繹Spark編程藝術

第6堂課：SparkContext解析和數據加載以及存儲

6.1 源碼剖析SparkContext

6.2 Scala、Java、Python使用SparkContext

6.4 加載數據成爲RDD

6.5 把數據物化

時間

內容

備註

次日

第7堂課：深刻實戰RDD

7.1 DAG

7.2 深刻實戰各類Scala RDD Function

7.3 Spark Java RDD Function

7.4 RDD的優化問題

第8堂課：Shark的原理和使用

8.1 Shark與Hive

8.2 安裝和配置Shark

8.3 使用Shark處理數據

8.4 在Spark程序中使用Shark Queries

8.5 SharkServer

8.6 思考Shark架構

第9堂課：Spark的機器學習

9.1 LinearRegression

9.2 K-Means

9.3 Collaborative Filtering

第10堂課：Spark的圖計算GraphX

10.1 Table Operators

10.2 Graph Operators

10.3 GraphX

第11堂課：Spark SQL

11.1 Parquet支持

11.2 DSL

11.3 SQL on RDD

時間

內容

備註

第三天

第12堂課：Spark實時流處理

12.1 DStream

12.2 transformation

12.3 checkpoint

12.4 性能優化

第13堂課：Spark程序的測試

13.1 編寫可測試的Spark程序

13.2 Spark測試框架解析

13.3 Spark測試代碼實戰

第14堂課：Spark的優化

14.1 Logs

14.2 併發

14.3 內存

14.4 垃圾回收

14.5 序列化

14.6 安全

第15堂課：Spark on Yarn

15.1 Spark on Yarn的架構原理

15.2 Spark on Yarn的最佳實踐

第16堂課：JobServer

16.1 JobServer的架構設計

16.2 JobServer提供的接口

16.3 JobServer最佳實踐

第17堂課：Spark項目案例實戰

17.1 Spark項目的最佳架構模式

17.2 案例的介紹和架構

17.3 案例的源碼實現

17.4 調優

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。