Spark SQL 筆記(10)——實戰網站日誌分析（1）

時間 2020-05-08

標籤 spark sql 筆記實戰網站日誌分析欄目 Spark 简体版

原文原文鏈接

1 用戶行爲日誌介紹 1.1 行爲日誌生成方法 Nginx Ajax 1.2 日誌內容訪問的系統屬性：操做系統、瀏覽器訪問特徵：點擊的 url、從哪一個url 跳轉過來的（referer）、頁面停留時間訪問信息： session_id, 訪問ip, 2 離線數據處理架構數據採集： Flume: web日誌寫入到 HDFS 數據清洗：Spark,hive,mapreduce,清洗後能夠存放到

>>阅读原文<<