MapReduce多路徑輸入與多文件輸出

我前段時間在完成一個公司業務時,遇到了一個這樣的需求:將HDFS上按天天每小時存儲的數據進行數據預處理,而後對應按天存儲在HDFS........由此可得,MapReduce的輸入路徑是:html /user/data/yyyy/MM/dd/HH/ 天天有24小時,dd/目錄下有24個目錄,而後,對這24個目錄下的數據預處理,最後輸出到dd/目錄: /user/out/yyyy/MM/dd/ 在設
相關文章
相關標籤/搜索