Hadoop的Archive歸檔命令使用指南

hadoop不適合小文件的存儲,小文件本省就佔用了不少的metadata,就會形成namenode愈來愈大。Hadoop Archives的出現視爲了緩解大量小文件消耗namenode內存的問題。node

採用ARCHIVE 不會減小 文件存儲大小,只會壓縮NAMENODE 的空間使用tcp

1.單文件打包oop

hadoop archive -archiveName weibotest2014.har -p /crawler/weibo/2014-06-26 /crawler/weibo/內存

2.多文件夾打包hadoop

hadoop archive -archiveName weibotest2014.har -p /crawler/weibo/ 2014-06-26 2014-06-27 /crawler/weibo/test

3.匹配打包打包

hadoop archive -archiveName weibotest2014.har -p /crawler/weibo/ 2014-06* /crawler/weibo/meta

4.解壓文件存儲

hadoop distcp har:////crawler/weibo/weibotest2014.har /crawler/weibo/刪除文件

5.查看文件夾大小

 

hadoop fs -du -s /crawler/weibo/2014-06-28

6.刪除文件夾

hadoop fs -rm -r /crawler/weibo/2014-06-28

相關文章
相關標籤/搜索