hive小文件合併思路

對於hdfs來說,系統的壓力主要集中在namenode   如果在整個hadoop集羣中存在大量的小文件,會消耗namenode的大量內存(大概146B一個元數據) 另一方面,如果小文件過多,有沒有開啓combine inputformat,在進行split分片的時候,會產生大量的map,嚴重影響到mapred的利用率。 定期對小文件進行清理就會變得很必要,比如我會每天有報表來獲取hive中表的信
相關文章
相關標籤/搜索