Hadoop漸進五：Hadoop I/O(Sequence, Map, Set...)

時間 2021-07-10

原文原文鏈接

一、簡述 Hadoop的HDFS和MapReduce子框架主要是針對大數據文件來設計，不適合於小文件的存儲與處理，這裏的小文件主要是size遠小於一個block size(默認64M)的文件。爲什麼呢？首先，每一個小文件都要佔用一個block(默認64M)，會造成大量磁盤空間的浪費；其次，小文件越多，對namenode的內存壓力就越大。面對這樣的情況，我們需要提供小文件整理容器，將這些小文件組織