Hadoop實戰項目:小文件合併

項目背景    在實際項目中,輸入數據往往是由許多小文件組成,這裏的小文件是指小於HDFS系統Block大小的文件(默認128M),早期的版本所定義的小文件是64M,這裏的hadoop-2.2.0所定義的小文件是128M。然而每一個存儲在HDFS中的文件、目錄和塊都映射爲一個對象,存儲在NameNode服務器內存中,通常佔用150個字節。 如果有1千萬個文件,就需要消耗大約3G的內存空間。如果是1
相關文章
相關標籤/搜索