Spark的Shuffle過程

時間 2021-01-02

原文原文鏈接

爲什麼80%的碼農都做不了架構師？>>> Shuffle過程分爲shuffle write和shuffle read。由父RDD(比如join就是join兩邊的RDD)根據分區數進行劃分，並寫內存或磁盤，構成write過程。由子RDD(join之後生成的RDD，分區數由spark.default.parallelism控制)從父RDD那裏拉取數據到自己的分區構成re

>>阅读原文<<