如何成爲雲計算大數據Spark高手

時間 2019-11-22

標籤如何成爲計算數據 spark 高手欄目 Spark 简体版

原文原文鏈接

Spark是發源於美國加州大學伯克利分校AMPLab的集羣計算平臺，它立足於內存計算，性能超過Hadoop百倍，從多迭代批量處理出發，兼收幷蓄數據倉庫、流處理和圖計算等多種計算範式，是罕見的全能選手。Spark採用一個統一的技術堆棧解決了雲計算大數據的如流處理、圖技術、機器學習、NoSQL查詢等方面的全部核心問題，具備完善的生態系統，這直接奠基了其一統雲計算大數據領域的霸主地位。編程

伴隨Spark技術的普及推廣，對專業人才的需求日益增長。Spark專業人才在將來也是煊赫一時，垂手可得能夠拿到百萬的薪酬。而要想成爲Spark高手，也須要一招一式，從內功練起：一般來說須要經歷如下階段：架構

第一階段：熟練的掌握Scala語言app

1，Spark框架是採用Scala語言編寫的，精緻而優雅。要想成爲Spark高手，你就必須閱讀Spark的源代碼，就必須掌握Scala,；框架

2，雖說如今的Spark能夠採用多語言Java、Python等進行應用程序開發，可是最快速的和支持最好的開發API依然並將永遠是Scala方式的API，因此你必須掌握Scala來編寫複雜的和高性能的Spark分佈式程序；運維

3，尤爲要熟練掌握Scala的trait、apply、函數式編程、泛型、逆變與協變等；機器學習

第二階段：精通Spark平臺自己提供給開發者API分佈式

1，掌握Spark中面向RDD的開發模式，掌握各類transformation和action函數的使用；函數式編程

2，掌握Spark中的寬依賴和窄依賴以及lineage機制；函數

3，掌握RDD的計算流程，例如Stage的劃分、Spark應用程序提交給集羣的基本過程和Worker節點基礎的工做原理等oop

第三階段：深刻Spark內核

此階段主要是經過Spark框架的源碼研讀來深刻Spark內核部分：

1，經過源碼掌握Spark的任務提交過程；