hadoop離線數據處理架構

時間 2021-01-01

原文原文鏈接

數據處理流程 1）數據採集 Flume： web日誌寫入到HDFS 2）數據清洗髒數據 Spark、Hive、MapReduce 或者是其他的一些分佈式計算框架清洗完之後的數據可以存放在HDFS(Hive/Spark SQL) 3）數據處理按照我們的需要進行相應業務的統計和分析 Spark、Hive、MapReduce 或者是其他的一些分佈式計算框架 4）處理結果入庫結果可以存放到RDBM

>>阅读原文<<