Spark 學習筆記大綱
Spark 內核
- 第28課:Spark天堂之門解密 (點擊進入博客)
從 SparkContext 建立3大核心對象開始到註冊給 Master 這個過程當中的源碼鑑賞
- 第29課:Master HA完全解密 (點擊進入博客)
從 Master 如何基於 ZooKeeper 來作 HA 的源碼鑑賞
- 第30課:Master的註冊機制和狀態管理解密 (點擊進入博客)
從 Master 的角度去分析它是如何接收 Worker, Driver, Application 的註冊,以及它是如何管理 Driver 和 Executor 狀態變化的源碼鑑賞
- 第31課:Spark資源調度分配內幕天機完全解密:Driver在Cluster模式下的啓動、兩種不一樣的資源調度方式源碼完全解析、資源調度內幕總結 (點擊進入博客)
從 Spark 資源調度的角度去分析Worker與應用程序是如何得到計算資源的源碼鑑賞
- 第32課:Spark Worker 原理和源碼剖析解密:Worker工做流程圖、Worker啓動Driver源碼解密、Worker啓動Executor源碼解密等 (點擊進入博客)
從 Worker 的角度去分析它是如何啓動 Driver、Executor 和與 Master 交互的源碼鑑賞
- 第33課:Spark Executor內幕完全解密:Executor工做原理圖、ExecutorBackend註冊源碼解密、Executor實例化內幕、Executor具體工做內幕 (點擊進入博客)
從 Executor 的角度去分析它是如何註冊和 CoarseGrainedExecutorBackend 與 CoarseGrainedSchedulerBackend 二者之間是如何交互的源碼鑑賞
- 第34課:Stage劃分和Task最佳位置算法源碼完全解密 (點擊進入博客)
從 Task 的角度去分析一個任務是如何被劃分紅不一樣的 Stage 以及Spark是如何計算出最佳的數據本地性
- 第35課:打通Spark系統運行內幕機制循環流程 (點擊進入博客)
再一次介紹和運行從提交做業到程序封裝成 Task 運行的機制
- 第36課:TaskScheduler內幕天機解密:Spark shell案例運行日誌詳解、TaskScheduler和SchedulerBackend、FIFO與FAIR、Task運行時本地性算法詳解等 (點擊進入博客)
- 第37課:Task執行內幕與結果處理解密 (點擊進入博客)
- 第38課:BlockManager架構原理、運行流程圖和源碼解密 (點擊進入博客)
- 第40課:CacheManager完全解密:CacheManager運行原理流程圖和源碼詳解 (點擊進入博客)
- 第41課:Checkpoint完全解密:Checkpoint的運行原理和源碼實現完全詳解 (點擊進入博客)
Spark SQL
- SparkSession、DataFrame 和 DataSet 練習 (點擊進入博客)
Spark 案例與性能調優目錄
- 第一章:性能調優的本質、Spark資源使用原理和調優要點分析 (點擊進入博客)
初探大數據性能調優的本質和Spark性能調優要點分析、Spark性能調優之系統資源使用原理和調優最佳實踐以及Spark性能調優之使用更高性能算子及其源碼剖析
- 第二章:完全解密 Spark 的 HashShuffle (點擊進入博客)
談談 Spark舊版本中性能調優之HashShuffle剖析及調優、完全解密 Shuffle 是如何成爲Spark性能殺手的及調優勢思考以及 Spark Hash Shuffle 源碼解讀與剖析
- 第三章 : Spark 2.1.x 中 Sort-Based Shuffle 產生的內幕 (點擊進入博客)
從根本上理解 Spark 中 Sort-Based Shuffle 產生的內幕及其 tungsten-sort 背景解密、解密Spark Shuffle使人費解的6大經典問題
- 第四章 : Spark Shuffle 中 JVM 內存使用及配置內幕詳情 (點擊進入博客)
源碼補充 : Spark 2.1.X 中 Unified 和 Static MemoryManager (點擊進入博客)
談談 JVM 內存使用架構剖析、Spark 1.6.x 之前和 Spark 2.1.x 版本中 JVM 到底能夠緩存多少數據、Spark Unified Memory 原理
歡迎關注本站公眾號,獲取更多信息