關於hive當中的map輸入數據和reduce輸出數據的合併。

最近在做要執行很複雜的sql.然後在文件輸出的時候出現了一堆小文件: 爲啥要對小文件進行合併一句話總結爲:文件數目過多,增加namenode的壓力。因爲每一個文件的元數據信息都是存在namenode上面的。所以要減少小文件的數據量。 同時也是降低下一個程序處理這些小文件,啓動和小文件一樣數量的map數。增加jvm的壓力。 從兩方面出發進行控制hive最終的文件大小: (1)從數據的文件大小控制,也
相關文章
相關標籤/搜索