關於hive當中的map輸入數據和reduce輸出數據的合併。

時間 2020-12-31

原文原文鏈接

最近在做要執行很複雜的sql.然後在文件輸出的時候出現了一堆小文件：爲啥要對小文件進行合併一句話總結爲：文件數目過多，增加namenode的壓力。因爲每一個文件的元數據信息都是存在namenode上面的。所以要減少小文件的數據量。同時也是降低下一個程序處理這些小文件，啓動和小文件一樣數量的map數。增加jvm的壓力。從兩方面出發進行控制hive最終的文件大小：（1）從數據的文件大小控制，也