Shuffle機制及優化

1. Shuffle機制 Map方法之後,Reduce方法之前的數據處理過程稱之爲Shuffle。 Shuffle階段主要做的事情: map方法處理後得到的一系列新的key/value會先經過Partioner的分區方法,標記分區,然後進入環形緩衝區 在環形緩衝區中進行分區和排序,環形緩衝區左側寫數據,右側寫索引 環形緩衝區默認100m,默認到達80%時溢寫,溢寫前對數據的key的索引按照字典序,
相關文章
相關標籤/搜索