1:大數據平臺網站日誌分析系統,項目技術架構圖:web
2:大數據平臺網站日誌分析系統,流程圖解析,總體流程以下:sql
ETL即hive查詢的sql;架構
可是,因爲本案例的前提是處理海量數據,於是,流程中各環節所使用的技術則跟傳統BI徹底不一樣:框架
1) 數據採集:定製開發採集程序,或使用開源框架FLUME工具
2) 數據預處理:定製開發mapreduce程序運行於hadoop集羣oop
3) 數據倉庫技術:基於hadoop之上的Hive大數據
4) 數據導出:基於hadoop的sqoop數據導入導出工具網站
5) 數據可視化:定製開發web程序或使用kettle等產品spa
6) 整個過程的流程調度:hadoop生態圈中的oozie工具或其餘相似開源產品3d
3:在一個完整的大數據處理系統中,除了hdfs+mapreduce+hive組成分析系統的核心以外,還須要數據採集、結果數據導出、任務調度等不可或缺的輔助系統,而這些輔助工具在hadoop生態體系中都有便捷的開源框架,如圖所示:
4:採集網站的點擊流數據分析項目流程圖分析:
5:流式計算通常架構圖:
6:Spark和Hadoop之間的關係:
待續......