mapReduce:網站日誌分析項目案例:數據清洗

一、數據情況分析 1.1 數據情況回顧   該論壇數據有兩部分:   (1)歷史數據約56GB,統計到2012-05-29。這也說明,在2012-05-29之前,日誌文件都在一個文件裏邊,採用了追加寫入的方式。   (2)自2013-05-30起,每天生成一個數據文件,約150MB左右。這也說明,從2013-05-30之後,日誌文件不再是在一個文件裏邊。   圖1展示了該日誌數據的記錄格式,其中每
相關文章
相關標籤/搜索