Hadoop的I/O操作——SequenceFile

時間 2021-07-11

原文原文鏈接

Hadoop的I/O操作——SequenceFile 1. 基於文件的數據結構 Hadoop的HDFS和MapReduce自框架主要是針對大數據文件來設計的，在小文件的處理上不但效率低，還浪費內存資源（每個小文件佔據一個block，每個block的元數據都要存儲在namenode裏）。爲了解決這個問題，通常採用容器來對一些小文件進行存儲，Hadoop提供了2種類型的容器：SequenceFile和