MR讀取大量小文件優化

時間 2020-02-09

標籤讀取量小文件優化简体版

原文原文鏈接

背景平臺打印的日誌是以100M爲一個文件，壓縮後在10M-20M之間，所以，經過傳文件方式到bi的數據，通常一個文件爲10M-20M；node 經過kafka傳輸的日誌，取決於日誌量的大小和sdk活躍的時段，所以對於量小的日誌，常常會出現kB級別大小的文件，以下：apache mapreduce在處理小文件時，每一個小文件都須要建立一個map任務，對於有海量小文件的狀況，會建立大量的map任務，

>>阅读原文<<