shuffle階段作了什麼?什麼是shuffle階段?

直白點來講map輸出到reduce輸入的中間過程就是shuffle階段,那麼如今就來講下shuffle作了什麼:線程 (1)collect階段:將 MapTask 的結果輸出到默認大小爲 100M 的環形緩衝區,排序 保存的是 key/value,Partition 分區信息等。內存 (2)spill階段:當內存中的數據量達到必定的閥值的時候,就會將數據寫it 入本地磁盤,在將數據寫入磁盤以前須要
相關文章
相關標籤/搜索