Spark 08 Spark SQL 實戰:日誌分析(一)介紹、數據清洗

代碼及測試文件下載java 1 離線數據處理流程 1)數據採集linux Flume:web日誌寫入到HDFS 2)數據清洗git 髒數據處理 可使用Spark、Hive、MapReduce 清洗完以後數據能夠放在HDFS 3)數據處理github 按照需求進行業務統計和分析 使用Spark、Hive、MapReduce或者其餘分佈式計算框架 4)處理結果入庫web 結果存放在RDBMS、NoSQ
相關文章
相關標籤/搜索