18小時內掌握Spark:把雲計算大數據速度提升100倍以上!(Final版本)

如何把雲計算大數據處理速度提升100倍以上?Spark給出了答案。程序員

Spark是能夠革命Hadoop的目前惟一替代者,可以作Hadoop作的一切事情,同時速度比Hadoop快了100倍以上,下圖來自Spark的官方網站:算法

 

 

Logistic regression in Hadoop and Spark數據庫

能夠看出在Spark特別擅長的領域其速度比Hadoop快120倍以上!編程

 

Spark是基於內存,是雲計算領域的繼Hadoop以後的下一代的最熱門的通用的並行計算框架開源項目,尤爲出色的支持Interactive Query、流計算、圖計算等。數組

Spark在機器學習方面有着無與倫比的優點,特別適合須要屢次迭代計算的算法。同時Spark的擁有很是出色的容錯和調度機制,確保系統的穩定運行,Spark目前的發展理念是經過一個計算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多種功能於一個項目中,具備很是好的易用性。瀏覽器

目前SPARK已經構建了本身的整個大數據處理生態系統,如流處理、圖技術、機器學習、NoSQL查詢等方面都有本身的技術,而且是Apache頂級Project,能夠預計的是2014年下半年在社區和商業應用上會有爆發式的增加。安全

    國內的淘寶、優酷土豆等已經使用Spark技術用於本身的商業生產系統中,國內外的應用開始愈來愈普遍,國外一些大型互聯網公司已經部署了Spark。甚至連Yahoo是Hadoop的早期主要貢獻者,如今也在多個項目中部署使用Spark,國內咱們已經在運營商、電商等傳統行業部署了Spark。性能優化

 

課程介紹   架構

鑑於Spark的巨大價值和潛力,同時因爲國內極度缺少Spark人才,家林在對Spark潛心研究(2012年1月起)2年多後,在完成了對Spark源碼的完全研究的同時不斷在實際環境中使用Spark的各類特性的基礎之上,編寫了世界上第一本系統性的Spark書籍並開設了世界上第一個系統性的Spark課程,課程包含Spark的集羣系統運做原理、Spark的編程模型和語言、Spark框架源碼剖析、Spark的流處理框架Spark Streaming、Shark、Machine Learning on Spark以及Spark多語言編程,同時對Spark的測試,最後涵蓋了使用Spark的一些最佳實踐(如何調優、併發的限制、日誌的查看、序列化和反序列化等),從零基礎入門到達商業級實戰,祝你和公司輕鬆駕馭Spark,今後自由翱翔於雲計算大數據的天空!併發

培訓對象

1, 雲計算大數據從業者;

2, Hadoop使用者;

3,  系統架構師、系統分析師、高級程序員、資深開發人員;

4, 牽涉到大數據處理的數據中心運行、規劃、設計負責人;

5, 政府機關,金融保險、移動和互聯網等大數據來源單位的負責人;

6, 高校、科研院所涉及到大數據與分佈式數據處理的項目負責人;

7, 數據倉庫管理人員、建模人員,分析和開發人員、系統管理人員、數據庫管理人員以及對數據倉庫感興趣的其餘人員;

學員基礎

瞭解面向對象編程;

瞭解Linux的基本使用;

 

王家林老師

中國目前惟一的移動互聯網和雲計算大數據集大成者;

雲計算大數據Spark亞太研究院院長和首席專家;

 

       聯繫郵箱:18610086859@126.com

       聯繫電話:18610086859

Spark亞太研究院院長和首席專家,Spark源碼級專家,對Spark潛心研究(2012年1月起)2年多後,在完成了對Spark的14不一樣版本的源碼的完全研究的同時不斷在實際環境中使用Spark的各類特性的基礎之上,編寫了世界上第一本系統性的Spark書籍並開設了世界上第一個系統性的Spark課程並開設了世界上第一個Spark高端課程(涵蓋Spark內核剖析、源碼解讀、性能優化和商業案例剖析)。Spark源碼研究狂熱愛好者,醉心於Spark的新型大數據處理模式改造和應用。

Hadoop源碼級專家,曾負責某知名公司的類Hadoop框架開發工做,專一於Hadoop一站式解決方案的提供,同時也是雲計算分佈式大數據處理的最先實踐者之一,Hadoop的狂熱愛好者,不斷的在實踐中用Hadoop解決不一樣領域的大數據的高效處理和存儲,如今正負責Hadoop在搜索引擎中的研發等,著有《雲計算分佈式大數據Hadoop實戰高手之路---從零開始》《雲計算分佈式大數據Hadoop實戰高手之路---高手崛起》《雲計算分佈式大數據Hadoop。實戰高手之路---高手之巔》等;

 

Android架構師、高級工程師、諮詢顧問、培訓專家;

通曉Android、HTML五、Hadoop,迷戀英語播音和健美;

致力於Android、HTML五、Hadoop的軟、硬、雲整合的一站式解決方案;

國內最先(2007年)從事於Android系統移植、軟硬整合、框架修改、應用程序軟件開發以及Android系統測試和應用軟件測試的技術專家和技術創業人員之一。

 

HTML5技術領域的最先實踐者(2009年)之一,成功爲多個機構實現多款自定義HTML5瀏覽器,參與某知名的HTML5瀏覽器研發;

超過10本的IT暢銷書做者;

 

培訓內容

 

第一天

第1堂課:Spark的架構設計

1.1 Spark的速度爲何如此的快?

1.2 Spark的架構設計剖析

1.3 RDD計算流程解析

1.4 Spark的出色容錯機制

 

第2堂課:實戰使用三種語言開發Spark

2.1 Scala簡介、爲何Spark會使用Scala做爲開發語言?

2.2 在Spark中使用Scala

2.3 使用Java開發Spark程序

2.4 使用Python開發Spark程序

2.5 深刻使用Spark Shell

 

第3堂課:快速掌握Scala

3.1 Scala變量聲明、操做符、函數的使用實戰

3.2 apply方法

3.3 Scal的控制結構和函數

3.4 Scala數組的操做、Map的操做

3.5 Scala中的類

3.6 Scala中對象的使用;

3.7 Scala中的繼承

3.8 Scala中的特質

3.9 Scala中集合操做

 

第4堂課:Spark集羣的安裝和設置

4.1 在一臺機器上運行Spark

4.2 在EC2上運行Spark

4.3 在Mesos上部署Spark

4.4 在YARN上部署Spark

4.5 經過SSH在衆多機器上部署Spark

4.6 Spark集羣設置

 

第5堂課:編寫Spark程序

5.1 程序數據的來源:File、HDFS、HBase、S3等

5.2 IDE環境構建

5.3 Maven

5.4 sbt.

5.5 編寫並部署Spark程序的實例

 

時間

內  容

備註

 

 

 

 

 

 

 

 

 

 

 

 

次日

第6堂課:SparkContext解析和數據加載以及存儲

6.1 源碼剖析SparkContext

6.2 Scala、Java、Python使用SparkContext

6.4 加載數據成爲RDD

6.5 把數據物化

 

第7堂課:深刻實戰RDD

7.1 DAG

7.2 深刻實戰各類Scala RDD Function

7.3 Spark Java RDD Function

7.4 RDD的優化問題

 

第8堂課:Shark的原理和使用

8.1 Shark與Hive

8.2 安裝和配置Shark

8.3 使用Shark處理數據

8.4 在Spark程序中使用Shark Queries

8.5 SharkServer

8.6 思考Shark架構

 

第9堂課:Spark程序的測試

9.1 編寫可測試的Spark程序

9.2 Spark測試框架解析

9.3 Spark測試代碼實戰

 

第10堂課:Spark的優化

10.1 Logs

10.2 併發

10.3 內存

10.4 垃圾回收

10.5 序列化

10.6 安全

 

 

 

時間

內  容

備註

第三天

第11堂課:Spark的機器學習

11.1 LinearRegression

11.2 K-Means

11.3 Collaborative Filtering

 

第12堂課:Spark的圖計算GraphX

12.1 Table Operators

12.2 Graph Operators

12.3 GraphX

 

第13堂課:Spark SQL

13.1 Parquet支持

13.2 DSL

13.3 SQL on RDD

 

第14堂課:Spark實時流處理

14.1 DStream

14.2 transformation

14.3 checkpoint

14.4 性能優化

相關文章
相關標籤/搜索