Spark SQL 筆記(10)——實戰網站日誌分析(1)

1 用戶行爲日誌介紹 1.1 行爲日誌生成方法 Nginx Ajax 1.2 日誌內容 訪問的系統屬性:操做系統、瀏覽器 訪問特徵:點擊的 url、從哪一個url 跳轉過來的(referer)、頁面停留時間 訪問信息: session_id, 訪問ip, 2 離線數據處理架構 數據採集: Flume: web日誌寫入到 HDFS 數據清洗:Spark,hive,mapreduce,清洗後能夠存放到
相關文章
相關標籤/搜索