【十五】SparkSQL訪問日誌分析:數據清洗、數據分析(分組、排序、窗口函數)、入庫(MySQL)、性能優化

概述:html 1.第一次數據清洗:從原始日誌中抽取出須要的列的數據,按照須要的格式。java 2.第二步數據清洗:解析第一步清洗後的數據, 處理時間,提出URL中的產品編號、獲得產品類型,  由IP獲得城市信息(用到開源社區的解析代碼,該部分具體介紹:ipdatabase解析出IP地址所屬城市) ,按照天分區進行存儲 (用parquet格式)。mysql 3.統計分析(分組、排序、窗口函數)。a
相關文章
相關標籤/搜索