數據治理-HDFS廢棄文件、Hive廢棄表檢測與清理

一、背景 廢棄下線的業務,直接在調度系統下線了相應的調度任務,而大量歷史數據仍然殘留,須要清除。 去年集羣遷移,致使不少表有HDFS數據但Hive上沒有元數據,須要清除。mysql 二、思路 ① 掃描HDFS目錄,到分區深度(好比/user/hive/warehouse/test.db/hdfs_audit/pt=20200416,深度爲6)web ② 採集HDFS audit log(注意過濾掃
相關文章
相關標籤/搜索