[大數據]連載No12之Spark Shuffle

時間 2021-07-14

原文原文鏈接

本次知識點見目錄 1：Spark計算會發生Shuffle的原因大數據計算每一個key對應得value不一定在一個partition裏，因爲RDD是分佈室的彈性的數據集 Shuffle 兩階段 1：Shuffle Write 上一個stage的每個map task就必須保證將自己處理的當前分區的數據相同的key寫入到一個分區文件中，可能就會寫入多個不同的的分區文件中 2：shuffle Read

>>阅读原文<<