用戶點擊行爲實時分析系統spark

系統設計技術有:
Hadoop2.x
Zookeeper
Flume
Hive
Hbase
Kafka
Spark2.x
Spark Streaming
Structured Streaming
MySQL
Hue
JavaEE
WebSocket
Echartsjava

1.1案例需求分析:mysql

主要是基於用戶瀏覽新聞的日誌信息進行分析的.咱們主要的業務需求有如下幾個方面:
完成用戶瀏覽日誌信息的收集.
完成實時分析前20名流量最高的話題.
完成實時統計當前線上已經曝光的新聞的話題
完成數據報表的開發web

 

1.2 系統架構圖設計sql

調度層:zookeeper 管理工具: 開發工具:IDEA 分析工具:HUE
展現層: 統計查詢/報表 hue 數據可視化分析 h5+echarts
接口層:通訊協議 http/websocket 數據協議:xml/json
服務層: java/scala
計算層: 流式計算框架 streaming 離線計算框架 mapreduce 內存計算框架 spark
統一資源資源管理框架 HDFS
存儲層:分佈式消息隊列 kafka mysql hbase hive 分佈式文件系統hdfs
採集層:DB數據處理工具sqoop 日誌採集框架 flume
數據源層: database logfile json

 1.3 系統數據流程設計websocket

實時流:
應用服務 ---- flume ----kafka zookeeper----yarn sparking streaming scala--- mysql hbase--websocket--h5+echarts頁面展現架構

離線流:
應用服務 ---- flume---hbase zookeeper--hdfs--mapreduce spark sql hive yarn --hue --mysql -java服務-bi報表echarts

相關文章
相關標籤/搜索