Hadoop關於處理大量小文件的問題和解決方法

小 文件指的是那些size比HDFS 的block size(默認64M)小的多的文件。若是在HDFS中存儲小文件,那麼在HDFS中確定會含有許許多多這樣的小文件(否則就不會用hadoop了)。 而 HDFS的問題在於沒法頗有效的處理大量小文件。 任何一個文件,目錄和block,在HDFS中都會被表示爲一個object存儲在 namenode的內存中,沒一個object佔用150 bytes的內存
相關文章
相關標籤/搜索