MR讀取大量小文件優化

背景 平臺打印的日誌是以100M爲一個文件,壓縮後在10M-20M之間,所以,經過傳文件方式到bi的數據,通常一個文件爲10M-20M;node 經過kafka傳輸的日誌,取決於日誌量的大小和sdk活躍的時段,所以對於量小的日誌,常常會出現kB級別大小的文件,以下:apache mapreduce在處理小文件時,每一個小文件都須要建立一個map任務,對於有海量小文件的狀況,會建立大量的map任務,
相關文章
相關標籤/搜索