MapReduce端的二次排序以及對移動計算而不是移動數據的理解

, 1.其實MapReduce的二次排序是咱們定義的sort排序會執行兩遍,第一遍是在map端執行,針對一個map任務的(當partition以後的將數據寫入到內存緩衝區的時候,達到內存緩衝區的80%的時候就會spill到disk,此時disk是做爲硬盤緩存的,因此咱們的數據在硬盤上能夠sort排序,並且在map執行完任務以後數據就不見了),那麼當程序執行到reduce以後,reduce端shuf
相關文章
相關標籤/搜索