MapReduce程序運行流程分析

mapreduce運算過程分爲兩個過程:map階段和reduce階段 1.在進行數據計算時,首先通過DistributeInputStream對象進行獲取數據 2.然後對數據塊進行通過一定的偏移量進行切片,切片大小爲默認128mb,然後每個切片對應着一個map集合,對於對單詞的計數來說,map集合中的key是每個偏移量的數據,而value是默認是1 3.然後對map進行快速排序,其他工作的節點上的
相關文章
相關標籤/搜索