Hadoop漸進五:Hadoop I/O(Sequence, Map, Set...)

一、簡述 Hadoop的HDFS和MapReduce子框架主要是針對大數據文件來設計,不適合於小文件的存儲與處理,這裏的小文件主要是size遠小於一個block size(默認64M)的文件。爲什麼呢?首先,每一個小文件都要佔用一個block(默認64M),會造成大量磁盤空間的浪費;其次,小文件越多,對namenode的內存壓力就越大。 面對這樣的情況,我們需要提供小文件整理容器,將這些小文件組織
相關文章
相關標籤/搜索