spark源碼閱讀——5. shuffle

shuffle是什麼: 分佈式計算中,每個節點只計算部分數據,也就是隻處理一個分片,那麼要想求得某個key對應的全部數據,比如reduceByKey、groupByKey,那就需要把相同key的數據拉取到同一個分區,原分區的數據需要被打亂重組,這個按照一定的規則對數據重新分區的過程就是Shuffle(洗牌)。 Shuffle是連接Map和Reduce之間的橋樑,描述的是數據從Map端到Reduce
相關文章
相關標籤/搜索