Map和Reduce階段數據合併的處理

在Map階段處理數據時,由於內存的限制,會把數據先寫到文件中,最終會根據數據的多少生成多個文件,每個文件中會按照Reduce的個數分區,每個分區的數據都按照key值順序排放,Map結束後將多個文件合併爲同一個文件,合併時會將多個文件相同分區的數據合併在一起並且多個分區的數據重新排序按照key順序排放。在Reduce階段則從多個Map中獲取屬於該Reduce的分區數據,然後會根據數據的多少寫到文件和
相關文章
相關標籤/搜索