Hadoop入門之推薦系統架構簡單解析

大致架構如下圖: 主要流程分爲離線和實時兩個部分: 離線部分:收集日誌,然後將日誌處理爲規定格式(日誌清洗)上傳到HDFS,然後跑相應的MR.將處理後的數據通過各種算法或者查詢計算後的結果存儲到方便快速讀取的 數據庫中(Mysql,redis....),留給後期Web服務查詢使用. 實時部分:日誌收集處理爲實時進行的,使用strom或者spark直接處理執行相應的算法邏輯,得出結果存儲到數據庫中
相關文章
相關標籤/搜索