Spark項目之電商用戶行爲分析大數據平臺之(一)項目介紹

1、項目概述

本項目主要用於互聯網電商企業中,使用Spark技術開發的大數據統計分析平臺,對電商網站的各類用戶行爲(訪問行爲、購物行爲、廣告點擊行爲等)進行復雜的分析。用統計分析出來的數據,輔助公司中的PM(產品經理)、數據分析師以及管理人員分析現有產品的狀況,並根據用戶行爲分析結果持續改進產品的設計,以及調整公司的戰略和業務。最終達到用大數據技術來幫助提高公司的業績、營業額以及市場佔有率的目標。算法

本項目使用了Spark技術生態棧中最經常使用的三個技術框架,Spark Core、Spark SQL和Spark Streaming,進行離線計算和實時計算業務模塊的開發。業務模塊主要包括如下部分:session

(1)用戶訪問session分析框架

(2)頁面單跳轉化率統計佈局

(3)熱門商品離線統計大數據

(4)廣告流量實時統計4個業務模塊。優化

2、業務模塊介紹

2.1 用戶訪問session分析

該模塊主要是對用戶訪問session進行統計分析,包括session的聚合指標計算、按時間比例隨機抽取session、獲取天天點擊、下單和購買排名前10的品類、並獲取top10品類的點擊量排名前10的session。該模塊能夠讓產品經理、數據分析師以及企業管理層形象地看到各類條件下的具體用戶行爲以及統計指標,從而對公司的產品設計以及業務發展戰略作出調整。主要使用Spark Core實現。網站

2.2 頁面單跳轉化率統計

該模塊主要是計算關鍵頁面之間的單步跳轉轉化率,涉及到頁面切片算法以及頁面流匹配算法。該模塊能夠讓產品經理、數據分析師以及企業管理層看到各個關鍵頁面之間的轉化率,從而對網頁佈局,進行更好的優化設計。主要使用Spark Core實現。設計

2.3 熱門商品離線統計

該模塊主要實現天天統計出各個區域的top3熱門商品。而後使用Oozie進行離線統計任務的定時調度;使用Zeppeline進行數據可視化的報表展現。該模塊能夠讓企業管理層看到公司售賣的商品的總體狀況,從而對公司的商品相關的戰略進行調整。主要使用Spark SQL實現。開發

2.4 廣告流量實時統計

該模塊負責實時統計公司的廣告流量,包括廣告展示流量和廣告點擊流量。實現動態黑名單機制,以及黑名單過濾;實現滑動窗口內的各城市的廣告展示流量和廣告點擊流量的統計;實現每一個區域每一個廣告的點擊流量實時統計;實現每一個區域top3點擊量的廣告的統計。主要使用Spark Streaming實現。數據分析

相關文章
相關標籤/搜索