MapReduce Shuffle過程

以下1、2、3點是map端的shuffle,4、5、6是reduce端的shuffle: map任務出來的數據會先寫到環形緩衝區,數據在進入緩衝區之前是(k,v)類型,進入緩衝區之後就會變成(k,v,p)p是分區號。當寫入的數據達到設定的閾值時,系統將會啓動一個線程將緩衝區的數據寫到磁盤,每寫一次磁盤就會生成一個文件,這個過程叫spill。 寫入磁盤之前會先發生分區和排序,分區默認是根據哈希算法排
相關文章
相關標籤/搜索