CombineTextInputFormat切片機制優化大量小文件

默認狀況下TextInputformat對任務的切片機制是按文件規劃切片,無論文件多小,都會有一個單獨的切片,都會交給一個maptask,若是有大量的小文件,就會產生大量的maptask,處理效率及其低下 優化策略 (1) 最好的辦法,在數據處理系統的最前端(預處理/採集),將小文件先合併成大文件,再上傳到HDFS後續分析前端 (2)補救措施:若是已是大量小文件在HDFS中了,能夠使用另外一種In
相關文章
相關標籤/搜索