詳解MapReduce:shuffle過程

MapReduce確保每個Reducer的輸入都是按鍵排序的,系統執行排序,將map輸出作爲輸入傳給Reducer的過程被稱爲shuffle。 MAP端 map函數開始產生輸出時,並不是簡單地將它寫到磁盤上。這個過程更復雜,它利用緩衝的方式寫到內存並出於效率的目的進行預排序。 每個map任務都有一個環形緩衝區用於存儲任務輸出。在默認情況下,緩衝區的大小爲100MB,這個值可以通過mapreduce
相關文章
相關標籤/搜索