shuffle機制

將map輸出作爲輸入傳遞給reducer的過程稱爲shuffle。 Shuffle過程包含在Map和Reduce兩端   map階段大致過程爲:     寫數據,分區,排序,將屬於同一分區的輸出合併一起寫在磁盤上。   每個map任務都有一個環形內存緩衝區用於存儲任務輸出。環形內存緩衝區默認大小爲100M。   map開始產生輸出數據時,先將數據寫入緩衝區中,當緩衝區中數據達到閾值(默認爲0.8)
相關文章
相關標籤/搜索