大數據學習筆記整理之MapReduce工作原理

MapReduce主要分爲三個階段,Map階段,Shuffle階段,Reduce階段。 Map階段: 將輸入的多個分片(Split)有Map任務以完全並行方式進行處理。一個分片對應一個map任務,在默認的情況下,分片的大小與HDFS中數據塊(Block)大小一致,可以通過調整HDFS中block的大小來控制map的任務數量。 每個Map任務對輸入分片中的數據按照一定的規則解析成多個KV鍵值對,默認
相關文章
相關標籤/搜索