MapReduce端的二次排序以及對移動計算而不是移動數據的理解

時間 2019-12-12

標籤 mapreduce 端的二次排序以及移動計算不是數據理解欄目 Hadoop 简体版

原文原文鏈接

， 1.其實MapReduce的二次排序是咱們定義的sort排序會執行兩遍，第一遍是在map端執行，針對一個map任務的(當partition以後的將數據寫入到內存緩衝區的時候，達到內存緩衝區的80%的時候就會spill到disk,此時disk是做爲硬盤緩存的，因此咱們的數據在硬盤上能夠sort排序，並且在map執行完任務以後數據就不見了)，那麼當程序執行到reduce以後，reduce端shuf

>>阅读原文<<