如何離線分析HDFS的FsImage查找集羣小文件

章編寫目的 隨着Hadoop集羣數據量的增長,集羣中也同時會存在大量的小文件,即文件Size比HDFS的Block Size(默認128MB)小的多的文件。Hadoop集羣中存在大量的小文件對集羣造成的影響如下: 1.對NameNode的內存造成很大的壓力以及性能問題,在HDFS中任何文件、目錄或者block在NameNode內存中均以對象的方式表示(即元數據),默認每個元數據對象約佔150byt
相關文章
相關標籤/搜索