Spark深入淺出之剖析 Spark Shuffle 原理

Shuffle 一般被翻譯爲數據混洗,是類 MapReduce 分佈式計算框架獨有的機制,也是這類分佈式計算框架最重要的執行機制。本課時主要從兩個層面講解 Shuffle,主要分爲: 邏輯層面、 物理層面。 邏輯層面主要從 RDD 的血統機制出發,從 DAG 的角度來講解 Shuffle,另外也會講解 Spark 容錯機制,而物理層面是從執行角度來剖析 Shuffle 是如何發生的。 RDD 血統
相關文章
相關標籤/搜索