大數據離線web網站日誌分析

1、背景 1.1 黑馬論壇日誌,數據分爲兩部分組成,原來是一個大文件,是56GB;以後每天生成一個文件,大約是150-200MB之間; 1.2 日誌格式是apache common日誌格式; 1.3 分析一些核心指標,供運營決策者使用; 1.4 開發該系統的目的是分了獲取一些業務相關的指標,這些指標在第三方工具中無法獲得的;   2、開發大致流程: 2.1 把日誌數據上傳到HDFS中進行處理 如果
相關文章
相關標籤/搜索