大數據之路(二)——MapReduce流程詳細分析

最近有個任務就是處理上百G的日誌文件,爲了效率我們首先想到的是用hadoop,而hadoop框架中最重要的一 部分就是MapReduce,下面個人總結下MapReduce的流程:     1、MapRuduce File要處理得文件:File存儲在HDFS上,切分成默認64M的Block,存儲在多個DataNode節點上   2、MapReduce InputFormat:數據格式定義,例如以\n
相關文章
相關標籤/搜索