Hadoop和Spark的Shuffer過程對比解析

時間 2021-01-12

原文原文鏈接

Hadoop Shuffer# Hadoop 的shuffer主要分爲兩個階段：Map、Reduce。 Map-Shuffer:# 這個階段發生在map階段之後，數據寫入內存之前，在數據寫入內存的過程就已經開始shuffer,通過設置mapreduce.task.io.sort.mb的參數，可改變內存的大小，默認爲100M。數據在寫入內存大於80%時，會發生溢寫spill)過程

>>阅读原文<<