MapReduce中使用SequenceFile的方式上傳文件到集羣中

HDFS上不適合存儲小文件,因爲如果有很多的小文件,上傳到HDFS集羣,每個文件都會對應一個block塊,一個block塊的大小默認是128M,對於很多的小文件來說佔用了非常多的block數量,就會影響到內存的消耗, MapReduce處理這些文件的話也是需要很多的Map來處理. HDFS提供的小文件的解決方案可以使用SequenceFile和MapFile: 如果存在大量的小數據文件,可以使用S
相關文章
相關標籤/搜索