MapReduce入門(二)合併小文件

hadoop爲什麼要合併小文件?         小文件是指文件size小於HDFS上block大小的文件。這樣的文件會給hadoop的擴展性和性能帶來嚴重問題。首先,在HDFS中,任何block,文件或者目錄在內存中均以對象的形式存儲,每個對象約佔150byte,如果有1000 0000個小文件,每個文件佔用一個block,則namenode大約需要2G空間。如果存儲1億個文件,則namenod
相關文章
相關標籤/搜索