Spark 08 Spark SQL 實戰：日誌分析（一）介紹、數據清洗

時間 2019-12-04

標籤 spark sql 實戰日誌分析介紹數據清洗欄目 Spark 简体版

原文原文鏈接

代碼及測試文件下載java 1 離線數據處理流程 1）數據採集linux Flume：web日誌寫入到HDFS 2）數據清洗git 髒數據處理可使用Spark、Hive、MapReduce 清洗完以後數據能夠放在HDFS 3）數據處理github 按照需求進行業務統計和分析使用Spark、Hive、MapReduce或者其餘分佈式計算框架 4）處理結果入庫web 結果存放在RDBMS、NoSQ

>>阅读原文<<