Spark shuffle

1、什麼是shuffle Shuffle中文翻譯爲「洗牌」,需要Shuffle的關鍵性原因是某種具有共同特徵的數據需要最終匯聚到一個計算節點上進行計算。把父RDD中的KV對按照Key重新分區,從而得到一個新的RDD。也就是說原本同屬於父RDD同一個分區的數據需要進入到子RDD的不同的分區。 2、爲什麼需要shuffle 在分佈式計算框架中,數據本地化是一個很重要的考慮,即計算需要被分發到數據所在的
相關文章
相關標籤/搜索