hive小文件合併

    hive倉庫表數據最終是存儲在HDFS上,因爲Hadoop的特性,對大文件的處理很是高效。並且大文件能夠減小文件元數據信息,減輕NameNode的存儲壓力。可是在數據倉庫中,越是上層的表彙總程度就越高,數據量也就越小,並且這些表一般會有日期分區,隨着時間的推移,HDFS的文件數目就會逐步增長。node 1、小文件帶來的問題sql HDFS的文件包好數據塊和元信息,其中元信息包括位置、大小、
相關文章
相關標籤/搜索