Hadoop實戰學習(2)-日誌清洗

轉載自:Hadoop日誌清洗 1.1 數據狀況回顧   該論壇數據有兩部分:html   (1)歷史數據約56GB,統計到2012-05-29。這也說明,在2012-05-29以前,日誌文件都在一個文件裏邊,採用了追加寫入的方式。java   (2)自2013-05-30起,天天生成一個數據文件,約150MB左右。這也說明,從2013-05-30以後,日誌文件再也不是在一個文件裏邊。web   圖
相關文章
相關標籤/搜索