MapReduce之CombineFileInputFormat自定義切片機制-04

默認情況下TextInputformat對任務的切片機制是按文件規劃切片,不管文件多小,都會是一個單獨的切片,都會交給一個maptask,這樣如果有大量小文件,就會產生大量的maptask,處理效率極其低下. 優化策略 1.最好的辦法,在數據處理系統的最前端,將小文件先合併成大文件,再傳到HDFS做後續分析. 2.補救措施:如果已經是大量小文件再HDFS中了,可以使用另一種InputFormat來
相關文章
相關標籤/搜索