淘寶用戶行爲數據分析

項目背景:隨着移動互聯網多年的快速發展,移動互聯網已進入下半場 ,再也不依靠用戶紅利來經營,發展業務,告別粗糙的/高成本企業發展的方式,開始轉而精細化管理,結合市場、渠道、用戶行爲等數據分析,對用戶展開有針對性的運營活動,提供個性化、差別化的運營策略,以實現運營目的行爲。本文利用SQL對淘寶用戶行爲數據進行分析,經過用戶行爲分析業務問題,提供針對性的運營策略。app

分析步驟:優化

  1. 提出問題
  2. 數據理解
  3. 數據清洗
  4. 構建模型
  5. 總結與建議

1、提出問題

1. 本次分析的業務問題及適用指標
本次分析的目的是想經過對淘寶用戶行爲數據分析,爲如下問題提供解釋和改進建議:ui

  1. 用戶從瀏覽到最終購買的整個過程的流失狀況,肯定夾點位置,提出改善轉化率的意見。
  2. 在研究的時間段裏找出用戶最活躍的日期以及天天活躍的時間段,瞭解用戶的行爲時間模式。
  3. 什麼產品以及產品類目的購買率最高,找出最受歡迎的產品,優化產品銷售。
  4. 哪些用戶購買次數最多,找出最核心的付費用戶羣,而且統計出這些用戶購買的產品以及類目,針對這些用戶的購買偏好推送個性化的產品銷售方案。

針對上面的業務問題,下面是適用的業務指標:
淘寶用戶行爲數據分析指標.png
2. 基於AARRR漏斗模型分析用戶行爲
本項目經過經常使用的電商數據分析業務指標,採用AARRR漏斗模型拆解用戶進入APP後的每一步行爲。AARRR模型是根據用戶使用產品全流程的不一樣階段進行劃分的,針對每一環節的用戶流失狀況分析出不一樣環節的優化優先級,主要經過如下個各階段來進行分析:
AARRR漏斗模型.png阿里雲

2、數據理解

本項目數據來源於阿里雲天池,可登錄阿里雲天池下載數據,地址以下:User Behavior Data from Taobao for Recommendation
本數據集包含了2017年11月25日至2017年12月3日之間,有行爲的約一百萬隨機用戶的全部行爲(行爲包括點擊、購買、加購、喜歡)。數據集的組織形式和MovieLens-20M相似,即數據集的每一行表示一條用戶行爲,由用戶ID、商品ID、商品類目ID、行爲類型和時間戳組成,並以逗號分隔。關於數據集中每一列的詳細描述以下:
image.png
注意到,用戶行爲類型共有四種,它們分別是:
image.png
關於數據集大小的一些說明以下:
image.pngspa

3、數據清洗

1. 觀察記錄
原數據集數據記錄達到1億條,數據量龐大,爲了方便分析與效率,本項目將選取了從500萬行至800萬的300萬條記錄進行分析。
2. 一致化處理
原數據時間戳使用的是epoch&unix timestamp格式,須要轉換爲標準可讀的日期時間形式。在原數據表增長3個新字段datetime、dates、hours,把轉換好的日期時間放進去。3d

ALTER TABLE userbehavior ADD COLUMN datetime TIMESTAMP(0) NULL;
UPDATE userbehavior SET datetime=FROM_UNIXTIME(timestamps);

ALTER TABLE userbehavior ADD COLUMN date CHAR(10) NULL;
UPDATE userbehavior SET date=SUBSTRING(datetime FROM 1 FOR 10);

ALTER TABLE userbehavior ADD COLUMN hour CHAR(2) NULL;
UPDATE userbehavior SET hour=SUBSTRING(datetime FROM 12 FOR 2);

image.png
3. 異常值處理
檢查日期是否在規定範圍內(2017年11月25日至2017年12月3日),將不符合規定的數據刪除。unix

SELECT MAX(timestamps),
       MIN(timestamps),
       MAX(datetime),
       MIN(datetime)
FROM userbehavior;

image.png

DELETE FROM userbehavior
WHERE datetime<'2017-11-25 00:00:00' OR datetime>='2017-12-04 00:00:00';

一共刪除了1689行數據,再次驗證日期時間的準確性,下面結果知足要求:
image.pngcode

4、構建模型

1. 流量與用戶行爲轉化分析
解決問題:用戶從瀏覽到最終購買的整個過程的流失狀況,肯定夾點位置,提出改善轉化率的意見。視頻

1)訪客數UV、訪問量PV、平均訪問量PV/UV:blog

SELECT
    COUNT(DISTINCT user_id) AS 'UV', 
    (SELECT COUNT(*) FROM userbehavior WHERE behavior='pv') AS 'PV',
    (SELECT COUNT(*) FROM userbehavior WHERE behavior='pv')/(COUNT(DISTINCT user_id)) AS 'PV/UV'
FROM userbehavior;

image.png

2)跳失率(只有點擊行爲的用戶/總用戶數):

SELECT COUNT(DISTINCT user_id)
FROM userbehavior
WHERE user_id NOT IN(SELECT DISTINCT user_id FROM userbehavior WHERE behavior = 'fav')
    AND user_id NOT IN(SELECT DISTINCT user_id FROM userbehavior WHERE behavior = 'cart')
    AND user_id NOT IN(SELECT DISTINCT user_id FROM userbehavior WHERE behavior = 'buy');
結果顯示只有點擊行爲卻沒有收藏、加入購物車以及購買行爲的用戶數是1628,除以總用戶數29233,則跳失率爲爲5.57%。

3)用戶總行爲漏斗:

SELECT behavior,COUNT(*)
FROM userbehavior
GROUP BY behavior;

image.png
image.png

因爲收藏和加入購物車都爲瀏覽和購買階段之間肯定購買意向的用戶行爲,且不分前後順序,所以將其算做同一階段。能夠看到從瀏覽到有購買意向只有9.50%的轉化率,固然也有部分用戶是直接購買而未經過收藏和加入購物車,可是這仍說明大多數用戶瀏覽頁面次數較多,而使用加入購物車和收藏功能較少。另外,購買次數佔加入購物車和收藏功能的23.53%左右,說明從瀏覽到收藏和加入購物車的階段是指標提高的重點環節。

4)獨立訪客行爲漏斗:

SELECT behavior, 
       COUNT(DISTINCT user_id) AS DIS_user
FROM userbehavior
GROUP BY behavior;

image.png
image.png

上圖展現的是每一步用戶行爲的獨立訪客數的分佈狀況,能夠看出使用APP的用戶中PUR約爲68.2%,用戶付費成交轉化率至關高,說明用戶的購買慾望仍是挺大的。

2. 用戶行爲模式分析
解決問題:在研究的時間段裏找出用戶最活躍的日期以及天天活躍的時間段,瞭解用戶的行爲時間模式。

1)每日活躍點擊量:

SELECT date,COUNT(*) as pv
FROM userbehavior
WHERE behavior='pv'
GROUP BY date
ORDER BY date;

image.png
image.png

從上圖能夠看出11月25日-12月1日保持穩定的水平,12/2開始出現較爲明顯的增加,點擊量陡增,增加率約爲26.4%。推測是上班族因工做逛淘寶的時間少,而週末(12月2日-12月3日)有充足的精力和有較多空閒時間訪問淘寶。所以平日運營能夠將活動集中在週末進行。

2)每時段的活躍點擊量:

SELECT `hour`,COUNT(*)/9
FROM userbehavior 
WHERE behavior = 'pv' 
GROUP BY `hour` 
ORDER BY `hour`;

image.png
image.png

在數據集觀察的9天裏,從18點開始點擊量穩步上升,到21點到達頂峯,22點稍有回落,到23點明顯降低,說明大部分用戶會在晚上18點到22點時段頻繁點擊瀏覽網頁,符合大部分人的做息時間。

3. 產品銷售分析
解決問題1:什麼產品以及產品類目的購買率最高,找出最受歡迎的產品,優化產品銷售。
解決問題2:哪些用戶購買次數最多,找出最核心的付費用戶羣,而且統計出這些用戶購買的產品以及類目,針對這些用戶的購買偏好推送個性化的產品銷售方案。

1)瀏覽次數、收藏次數、加入購物車次數以及購買次數最多的商品:

SELECT
    item_id,
    count(user_id) AS times_pv 
FROM
    userbehavior 
WHERE
    behavior='pv' 
GROUP BY
    item_id 
ORDER BY
    times_pv DESC;

image.png
image.png
image.png
image.png

在銷量榜單中並無看到瀏覽量第一第二的商品,說明這些吸引用戶更多注意力的商品並無很好的轉化爲實際銷量,僅更多的加入收藏中(瀏覽量前排的商品均能在收藏量前列中,說明瀏覽量與收藏的關係更爲直接)。

2)產品銷售排名:

-- 計算不一樣購買次數下的產品種類數
SELECT
    a.buy_num AS buy_count,
    COUNT(a.item_id) AS item_num 
FROM
    ( SELECT item_id, COUNT(user_id) AS buy_num FROM userbehavior WHERE behavior='buy' GROUP BY item_id ) AS a 
GROUP BY
    a.buy_num 
ORDER BY
    item_num DESC;

image.png

從上圖能夠看出只被購買一次的產品有38248種,被購買兩次的產品有5146種,本次分析的產品(item_id)有45931種,只被購買一次的產品佔到83.3%,意味着並無銷售很是集中的產品。爲了看清楚這一部分,咱們來看看產品種類的累計銷售狀況。

3)產品種類的累計銷售狀況:
image.png

從上圖能夠看出83.3%的產品貢獻了64.5%的銷售量,不符合傳統零售業的二八法則,說明電商靠長尾理論累計銷售,而不是製造爆款商品帶動銷量。

4)產品類目的累計銷售狀況:

-- 計算不一樣購買次數下的商品類目數量
SELECT
    a.cat_buytimes,
    COUNT(category_id) AS cat_type_count 
FROM
  -- 每種商品類目的購買次數
    ( SELECT category_id,COUNT(user_id) AS cat_buytimes FROM UserBehavior WHERE behavior='buy' GROUP BY category_id ) AS a
GROUP BY
    a.cat_buytimes
ORDER BY
    a.cat_buytimes;

image.png
image.png

從上表能夠更清楚的看出27.7%的產品類目貢獻了1.6%的銷售量,69.6%的產品類目貢獻了11.5%的銷售量,不符合傳統零售業的二八法則,一樣能夠說明其依靠長尾理論累計銷售。

5)復購率:

-- 統計不一樣購買次數下的用戶數
SELECT
    a.buy_times,
    COUNT(user_id) AS '人數' 
FROM
  -- 有購買行爲的用戶各自的購買次數
    ( SELECT user_id,COUNT(behavior) AS buy_times FROM userbehavior WHERE behavior='buy' GROUP BY user_id ) AS a
GROUP BY
    a.buy_times
ORDER BY
  a.buy_times;

image.png

從上圖能夠得知總體復購率爲(59329-6787)/59329=88.6%,即有購買行爲的用戶中大概有88.6%的用戶會重複購買。上面是復購狀況的可視圖,能夠看出大部分買家仍是隻購買一次。

6)找出復購率最高的用戶以及他們購買的產品:

SELECT
  user_id,
    COUNT(behavior) AS buy_times
FROM
  userbehavior
WHERE
  behavior='buy'
GROUP BY
  user_id
ORDER BY
  buy_times DESC;

image.png

從上面SQL語句的執行結果能夠看到用戶user_id=337305購買次數最多,高達93次。下面以復購率最高的用戶user_id=337305爲例研究說明。
SELECT
    category_id,
    COUNT(*) 
FROM
    UserBehavior 
WHERE
    behavior='buy' 
    AND user_id=337305 
GROUP BY
    category_id 
ORDER BY
    COUNT(*) DESC;

image.png

能夠看出復購率最高用戶user_id=337305購買的商品類目主要集中在上面表格中的前3大類,能夠參考這些商品類目的id來肯定產品種類。

這種針對某些用戶作的分析能夠更好地瞭解和發現價值用戶,若是數據集提供產品價格信息,就能夠經過上面的數據分析很容易地找到高價值用戶。瞭解高價值用戶的購買行爲,好比購買時間、購買產品以及品類等等以推出有針對性的產品推薦,經過個性化的推薦提升產品銷售狀況。

五.總結與建議

本次分析利用MySQL語句執行,數據集大約有300萬條淘寶用戶行爲數據,針對用戶行爲問題咱們使用AARRR漏斗模型進行業務分析,結合上述分析的業務指標,下面提出修改建議:
1. 獲取客戶(Acquisition):關鍵點是語言市場匹配和渠道產品匹配。
天天晚上16點到22點是用戶頻繁訪問的時間,也是獲取更多潛在客戶的黃金時間,平臺開展活動獲取客戶應首選這個時間段進行。
淘寶是電商第一平臺,用戶基數大,能夠利用用戶轉發的方式獲取新客戶,好比在晚間時段作促銷活動,邀請朋友拼團享受優惠來增長用戶數,適合利用口碑渠道獲取新客戶。也能夠進行小遊戲邀請、KOL推廣、熱門社交或小視頻平臺合做推廣、淘寶app賣家推送等。

2. 激活用戶(Activation):摸清楚產品的「啊哈」時刻,用戶從瀏覽到最終購買整個過程的流失狀況,肯定夾點位置,提出改善轉化率的建議。
用戶行爲包括點擊、加入購物車、收藏以及購買,點擊量佔總行爲的89.5%,而加入購物車和收藏只佔6%,最後實際購買跌至2%,夾點位置在收藏和加入購物車環節上,可能出現的緣由是用戶花了大量時間尋找合適的產品。根據數據分析結果改善轉化率的建議有:
(1)優化電商平臺的篩選功能,增長關鍵詞的準確率,讓用戶能夠更容易找到合適產品;
(2)給客戶提供同類產品比較的功能,讓用戶不須要屢次返回搜索結果反覆查看,便於用戶肯定心怡產品;
(3)精簡下單步驟,提供一鍵下單服務,好比只包含點擊-購買-支付三個環節,縮短購買流程,提升用戶體驗。

3. 第三個環節提升留存(Retention):讓用戶養成使用習慣。
讓用戶保持使用淘寶電商平臺的習慣是提升留存率的關鍵,可採用的方案可能有:
(1)按照使用頻率和購買次數積攢積分,天天上線點擊量達到某個數值便可自動領取積分,到月末換取購物禮券;
(2)對於年購買次數和金額達到規定量的客戶推出VIP服務,享受全場不限時9.5折優惠,購買次數同比上升以後相應福利也上升,利用這種方法提升高價值用戶的留存率和對平臺的忠誠度。

4. 第四個環節增長收入(Revenue):提升成交轉化率、復購率及產品和類目的購買率狀況。
獨立用戶從點擊到最後購買的轉化率約爲68.2%,用戶購買誠意仍是很足的,因此經過合理優化電商平臺的篩選功能能夠提升最終購買的轉化率。
有購買行爲的用戶中,大概有88.6%的用戶會重複購買。在獨立用戶中,最高的復購次數是93次,咱們能夠經過復購率、購買金額(本次數據集沒有提供)等來肯定價值用戶,經過分析找出價值用戶的購買偏好,產品和類目等,給價值用戶制定個性化的產品推薦,從而提升用戶體驗和電商平臺銷售狀況。
83.3%的產品貢獻了64.5%的銷售量,27.7%的產品類目貢獻了1.6%的銷售量,69.6%的產品類目貢獻了11.5%的銷售量,不符合傳統零售業的二八法則,電商靠長尾理論累計銷售。
以上數據顯示淘寶平臺的最大優點是產品種類和類目豐富,用戶可選擇的範圍很是廣,吸引不一樣類型的客戶羣,因此應該繼續保持這個優點。可能合適的提升方案有:
(1)內容營銷:使用「沒有找不到的產品,只有想不到的產品」來宣傳平臺購物種類豐富,讓用戶造成「只要買東西上淘寶必定有」的思惟習慣;
(2)針對前面肯定的價值用戶提供個性化產品推薦,好比最關心的產品類目和種類,上新以後定時推送給用戶;
(3)針對復購率,能夠推出3個月內復購優惠活動,讓客戶保持購買頻率。

5. 第五個環節推薦(Refer):用戶推薦給其餘人,關注轉發率、轉化率和K因子。針對淘寶平臺,讓用戶推薦給其餘人的方案有:(1)產品在購買的時候提供拼團服務,讓用戶主動推薦給其餘人;(2)每當推出新功能,好比前面提到的一鍵下單,讓體驗過的用戶轉發和分享領取優惠券,快速實現新功能推廣;(3)當用戶使用優惠券購物或者經過某種行爲積分購物以後提供朋友圈打卡功能,分享給好友,實現傳播功能。在實行以上方案以後須要關注轉發率、轉化率、經過用戶分享連接點擊購買的用戶比例以及K因子來檢測提出方案的有效性。

相關文章
相關標籤/搜索