Spark源碼分析系列(目錄)

記錄本身學習研究 Spark 的探索過程,爲後續總結奠基基礎。html

本文代碼研究以 Spark 2.3.0 源代碼爲基準,若是看本文,請閱讀時,下載對應的 Spark 版本。apache

圖1 伯克利的數據分析軟件棧BDAS(Berkeley Data Analytics Stack)架構

這裏要先說BDAS(伯克利數據分析棧),是伯克利大學的AMPLab打造的用於大數據的分析的一套開源軟件棧,這其中包括了這兩年火的爆棚的Spark(Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等組件,這些組件分別處理Spark Core提供內存計算框架、SparkStreaming的實時處理應用、Spark SQL的即時查詢、MLlib或MLbase的機器學習和GraphX的圖處理),也包括了冉冉升起的分佈式內存系統Alluxio(Tachyon),固然還包括著名的資源管理的開源軟件Mesos。能夠說Amplab最近幾年引領了大數據發展的技術創新的浪潮。從它的官網能夠看到這張圖片,其中,有很多文字是有連接,指向各自項目的主頁的。要查看這些連接,能夠到上面BDAS的官網。框架

一、論文篇機器學習

二、準備篇url

三、核心篇

圖2 一個 Spark 做業執行圖

1)Spark 的初始化

2)Spark 內存模型

  • ......

3)Spark 存儲體系

  • Spark 核心篇-SerializerManager
  • Spark 核心篇-BroadcastManager
  • Spark 核心篇-ShuffleManager
  • Spark 核心篇-MemoryManager
  • Spark 核心篇-NettyBlockTransferService
  • Spark 核心篇-BlockManagerMaster
  • Spark 核心篇-BlockManager

4)Spark 計算體系

  • Spark 核心篇-LiveListenerBus
  • Spark 核心篇-MapOutputTracker
  • Spark 核心篇-DAGScheduler
  • Spark 核心篇-TaskScheduler
  • Spark 核心篇-ExecutorAllocationManager
  • Spark 核心篇-OutputCommitCoordinator
  • Spark 核心篇-ContextClearner

5)Spark 運行模式

  • ......

四、組件篇

1)Spark SQL

  • ......

2)Spark Streaming

  • ......

3)Spark MLib

  • ......

4)Spark Graphx

  • ......

 

五、公共篇

1)Tags

相關文章
相關標籤/搜索