記錄本身學習研究 Spark 的探索過程,爲後續總結奠基基礎。html
本文代碼研究以 Spark 2.3.0 源代碼爲基準,若是看本文,請閱讀時,下載對應的 Spark 版本。apache
圖1 伯克利的數據分析軟件棧BDAS(Berkeley Data Analytics Stack)架構
這裏要先說BDAS(伯克利數據分析棧),是伯克利大學的AMPLab打造的用於大數據的分析的一套開源軟件棧,這其中包括了這兩年火的爆棚的Spark(Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等組件,這些組件分別處理Spark Core提供內存計算框架、SparkStreaming的實時處理應用、Spark SQL的即時查詢、MLlib或MLbase的機器學習和GraphX的圖處理),也包括了冉冉升起的分佈式內存系統Alluxio(Tachyon),固然還包括著名的資源管理的開源軟件Mesos。能夠說Amplab最近幾年引領了大數據發展的技術創新的浪潮。從它的官網能夠看到這張圖片,其中,有很多文字是有連接,指向各自項目的主頁的。要查看這些連接,能夠到上面BDAS的官網。框架
一、論文篇機器學習
二、準備篇url
三、核心篇
圖2 一個 Spark 做業執行圖
1)Spark 的初始化
2)Spark 內存模型
3)Spark 存儲體系
4)Spark 計算體系
5)Spark 運行模式
四、組件篇
1)Spark SQL
2)Spark Streaming
3)Spark MLib
4)Spark Graphx
五、公共篇
1)Tags