Hive小文件合併

Hive的後端存儲是HDFS,它對大文件的處理是很是高效的,若是合理配置文件系統的塊大小,NameNode能夠支持很大的數據量。可是在數據倉庫中,越是上層的表其彙總程度就越高,數據量也就越小。並且這些表一般會按日期進行分區,隨着時間的推移,HDFS的文件數目就會逐漸增長。 小文件帶來的問題 關於這個問題的闡述能夠讀一讀Cloudera的這篇文章。簡單來講,HDFS的文件元信息,包括位置、大小、分塊
相關文章
相關標籤/搜索