MapReduce的Shuffle過程介紹

前言 Shuffle的本義是洗牌、混洗,把一組有一定規則的數據儘量轉換成一組無規則的數據,越隨機越好。MapReduce中的Shuffle更像是洗牌的逆過程,把一組無規則的數據儘量轉換成一組具有一定規則的數據。 從Map輸出到Reduce輸入的整個過程可以廣義地稱爲Shuffle。Shuffle橫跨Map端和Reduce端,在Map端包括Spill過程,在Reduce端包括copy和sort過程。
相關文章
相關標籤/搜索