Spark 學習筆記大綱

時間 2019-12-05

標籤 spark 學習筆記大綱欄目 Spark 简体版

原文原文鏈接

Spark 內核

第28課：Spark天堂之門解密 (點擊進入博客)
從 SparkContext 建立3大核心對象開始到註冊給 Master 這個過程當中的源碼鑑賞
第29課：Master HA完全解密 (點擊進入博客)
從 Master 如何基於 ZooKeeper 來作 HA 的源碼鑑賞
第30課：Master的註冊機制和狀態管理解密 (點擊進入博客)
從 Master 的角度去分析它是如何接收 Worker, Driver, Application 的註冊，以及它是如何管理 Driver 和 Executor 狀態變化的源碼鑑賞
第31課：Spark資源調度分配內幕天機完全解密：Driver在Cluster模式下的啓動、兩種不一樣的資源調度方式源碼完全解析、資源調度內幕總結 (點擊進入博客)
從 Spark 資源調度的角度去分析Worker與應用程序是如何得到計算資源的源碼鑑賞
第32課：Spark Worker 原理和源碼剖析解密：Worker工做流程圖、Worker啓動Driver源碼解密、Worker啓動Executor源碼解密等 (點擊進入博客)
從 Worker 的角度去分析它是如何啓動 Driver、Executor 和與 Master 交互的源碼鑑賞
第33課：Spark Executor內幕完全解密：Executor工做原理圖、ExecutorBackend註冊源碼解密、Executor實例化內幕、Executor具體工做內幕 (點擊進入博客)
從 Executor 的角度去分析它是如何註冊和 CoarseGrainedExecutorBackend 與 CoarseGrainedSchedulerBackend 二者之間是如何交互的源碼鑑賞
第34課：Stage劃分和Task最佳位置算法源碼完全解密 (點擊進入博客)
從 Task 的角度去分析一個任務是如何被劃分紅不一樣的 Stage 以及Spark是如何計算出最佳的數據本地性
第35課：打通Spark系統運行內幕機制循環流程 (點擊進入博客)
再一次介紹和運行從提交做業到程序封裝成 Task 運行的機制
第36課：TaskScheduler內幕天機解密：Spark shell案例運行日誌詳解、TaskScheduler和SchedulerBackend、FIFO與FAIR、Task運行時本地性算法詳解等 (點擊進入博客)
第37課：Task執行內幕與結果處理解密 (點擊進入博客)
第38課：BlockManager架構原理、運行流程圖和源碼解密 (點擊進入博客)
第40課：CacheManager完全解密：CacheManager運行原理流程圖和源碼詳解 (點擊進入博客)
第41課：Checkpoint完全解密：Checkpoint的運行原理和源碼實現完全詳解 (點擊進入博客)

Spark SQL

SparkSession、DataFrame 和 DataSet 練習 (點擊進入博客)

Spark 案例與性能調優目錄

第一章：性能調優的本質、Spark資源使用原理和調優要點分析 (點擊進入博客)
初探大數據性能調優的本質和Spark性能調優要點分析、Spark性能調優之系統資源使用原理和調優最佳實踐以及Spark性能調優之使用更高性能算子及其源碼剖析
第二章：完全解密 Spark 的 HashShuffle (點擊進入博客)
談談 Spark舊版本中性能調優之HashShuffle剖析及調優、完全解密 Shuffle 是如何成爲Spark性能殺手的及調優勢思考以及 Spark Hash Shuffle 源碼解讀與剖析
第三章 : Spark 2.1.x 中 Sort-Based Shuffle 產生的內幕 (點擊進入博客)
從根本上理解 Spark 中 Sort-Based Shuffle 產生的內幕及其 tungsten-sort 背景解密、解密Spark Shuffle使人費解的6大經典問題
第四章 : Spark Shuffle 中 JVM 內存使用及配置內幕詳情 (點擊進入博客)
源碼補充 : Spark 2.1.X 中 Unified 和 Static MemoryManager (點擊進入博客)
談談 JVM 內存使用架構剖析、Spark 1.6.x 之前和 Spark 2.1.x 版本中 JVM 到底能夠緩存多少數據、Spark Unified Memory 原理

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。