Spark 學習筆記大綱

Spark 內核

  • 第28課:Spark天堂之門解密 (點擊進入博客)
    從 SparkContext 建立3大核心對象開始到註冊給 Master 這個過程當中的源碼鑑賞
  • 第29課:Master HA完全解密 (點擊進入博客)
    從 Master 如何基於 ZooKeeper 來作 HA 的源碼鑑賞
  • 第30課:Master的註冊機制和狀態管理解密 (點擊進入博客)
    從 Master 的角度去分析它是如何接收 Worker, Driver, Application 的註冊,以及它是如何管理 Driver 和 Executor 狀態變化的源碼鑑賞
  • 第31課:Spark資源調度分配內幕天機完全解密:Driver在Cluster模式下的啓動、兩種不一樣的資源調度方式源碼完全解析、資源調度內幕總結 (點擊進入博客)
    從 Spark 資源調度的角度去分析Worker與應用程序是如何得到計算資源的源碼鑑賞
  • 第32課:Spark Worker 原理和源碼剖析解密:Worker工做流程圖、Worker啓動Driver源碼解密、Worker啓動Executor源碼解密等 (點擊進入博客)
    從 Worker 的角度去分析它是如何啓動 Driver、Executor 和與 Master 交互的源碼鑑賞
  • 第33課:Spark Executor內幕完全解密:Executor工做原理圖、ExecutorBackend註冊源碼解密、Executor實例化內幕、Executor具體工做內幕 (點擊進入博客)
    從 Executor 的角度去分析它是如何註冊和 CoarseGrainedExecutorBackend 與 CoarseGrainedSchedulerBackend 二者之間是如何交互的源碼鑑賞
  • 第34課:Stage劃分和Task最佳位置算法源碼完全解密 (點擊進入博客)
    從 Task 的角度去分析一個任務是如何被劃分紅不一樣的 Stage 以及Spark是如何計算出最佳的數據本地性
  • 第35課:打通Spark系統運行內幕機制循環流程 (點擊進入博客)
    再一次介紹和運行從提交做業到程序封裝成 Task 運行的機制
  • 第36課:TaskScheduler內幕天機解密:Spark shell案例運行日誌詳解、TaskScheduler和SchedulerBackend、FIFO與FAIR、Task運行時本地性算法詳解等 (點擊進入博客)
  • 第37課:Task執行內幕與結果處理解密 (點擊進入博客)
  • 第38課:BlockManager架構原理、運行流程圖和源碼解密 (點擊進入博客)
  • 第40課:CacheManager完全解密:CacheManager運行原理流程圖和源碼詳解 (點擊進入博客)
  • 第41課:Checkpoint完全解密:Checkpoint的運行原理和源碼實現完全詳解 (點擊進入博客)

 

Spark SQL

 

Spark 案例與性能調優目錄

  • 第一章:性能調優的本質、Spark資源使用原理和調優要點分析 (點擊進入博客)
    初探大數據性能調優的本質和Spark性能調優要點分析、Spark性能調優之系統資源使用原理和調優最佳實踐以及Spark性能調優之使用更高性能算子及其源碼剖析
  • 第二章:完全解密 Spark 的 HashShuffle (點擊進入博客)
    談談 Spark舊版本中性能調優之HashShuffle剖析及調優、完全解密 Shuffle 是如何成爲Spark性能殺手的及調優勢思考以及 Spark Hash Shuffle 源碼解讀與剖析
  • 第三章 : Spark 2.1.x 中 Sort-Based Shuffle 產生的內幕 (點擊進入博客)
    從根本上理解 Spark 中 Sort-Based Shuffle 產生的內幕及其 tungsten-sort 背景解密、解密Spark Shuffle使人費解的6大經典問題
  • 第四章 : Spark Shuffle 中 JVM 內存使用及配置內幕詳情 (點擊進入博客)
    源碼補充 : Spark 2.1.X 中 Unified 和 Static MemoryManager (點擊進入博客)
    談談 JVM 內存使用架構剖析、Spark 1.6.x 之前和 Spark 2.1.x 版本中 JVM 到底能夠緩存多少數據、Spark Unified Memory 原理
相關文章
相關標籤/搜索