數據分析師如何自力更生統計用戶行爲頻次?

不懂數據分析的 growth hacker 不是好運營。近日我想要統計我家產品 xue.cn 用戶的編程自學行爲的頻次,且在不給技術開發部門帶來任何新需求的狀況下自力更生。那麼,我該如何定義並統計這個數據指標呢?python

一、定義學習這個行爲。

某些行爲是單個事件,某些行爲是多種事件的組合。mysql

xue.cn 用戶的編程自學行爲包括:完成某書一個章節的閱讀、完成一道習題、得到一個成就、提交一次評論,完成一次心得打卡等,將來還會有更多。不過,雖然咱們有聊天室,但由於使用的是 gitter ,因此數據採集並不容易,這個行爲就暫忽略。git

以上編程自學行爲事件數據分佈在產品數據庫的多個表中。sql

二、日誌數據的初步篩選。

經過在多個表中聯合查詢 user_id,事件發生日期獲得每一個 user_id 有學習行爲的日期數據,個人 sql 語句是這麼寫的:數據庫

with data_study as( -- 獲取有學習行爲的用戶名單及學習事件發生時間
    select 
        date(created_at) as time,
        user_id
    from user_comment
    union all
    select 
        date(created_at) as time,
        user_id
    from user_activity
    union all
    select 
        date(created_at) as time,
        user_id
    from study_card
)
select -- 獲取學習用戶的學習日期數據
    user_id,
    min(time) -- 某天有屢次學習行爲,僅取一條便可
from data_study
group by user_id,time
order by user_id
複製代碼

三、統計的基準線

遊客體驗功能是近期剛上線的。已有的學習行爲數據,屬於較早版本,那時用戶產生學習行爲的前提是至少完成一次時長兌換或小額RMB充值,因此本次我以用戶首次付費的日期做爲統計的基準線。編程

從日誌數據篩選獲取用戶的首次付費日期數據,個人 sql 語句是這麼寫的:工具

with data as( -- 獲取用戶付費日期
    select 
        user_id,
        used_at as 付費日期
    from 
        free_coupons 
    where 
        user_id is not null 
    union all
    select 
        user_id,
        created_at as 付費日期
    from 
        rmb_order
    where order_status = 'PAY_SUCCESS'
)
select  -- 篩選付費用戶的首次付費日期
    user_id,
    date(min(付費日期)) as reg_date
from
    data
group by 
    user_id
複製代碼

四、統計與分析

至此,有用的數據已從日誌中初步篩選統計獲得。接下來,用學習日期 - 首次付費日期獲得血虛行爲發生於首次付費後的第N天。其後統計:post

  • A:首次付費後的第N天仍有學習行爲的用戶數。
  • B:首次付費後的第N周(取值0至8),學習天數達到M天(取值1至7)的的用戶數。

A可做爲付費版留存率數據。B則是學習頻次分佈數據。學習

由於我對複雜的 sql 運算還不熟練,因此實操時把第 2 和 3 步的結果從 grafana導出爲 csv 文件,而後採用excel,部分指標則採用 python pandas完成演算。spa

五、精細選擇用戶羣體

雖然當前 xue.cn 功能已經完善不少,其實咱們是上半年剛立項,這半年多持續開發,某些學習功能在早期並未提供。因而,爲了獲取更可信、有效的數據,須要剔除早期批次的用戶。

具體來講,根據用戶首次付費日期,按月拆分用戶批次,再拆分統計學習行爲數據較爲完善的近期批次數據。

六、小結

以上就是我完成 xue.cn 用戶學習頻次指標的指定與統計分析的實操過程。此次數據洞察探索,幫我發現好幾處增加線索。

筆記的第四、5步對於運營、市場人員都是經常使用操做,我就不詳細貼步驟或演算方式啦。而前面的第二、3步,我是經過 grafana 直接用查詢語句與咱們家產品的數據庫交互。以前我寫過一篇 grafana 的上手筆記,它仍是至關簡易的。——具體到個人本次需求來講,是否採用 grafana 不關鍵,grafana 只是一種工具,關鍵是要能與產品數據庫交互拿到原始數據。

筆記雖然解決的是編程自學行爲,是我家產品爲用戶所提供價值的核心表現,但思路也可借鑑用於其它產品、其它行爲頻次的統計。若是對你有幫助或啓發,那就點贊或留言告訴我,鼓勵我分享更多筆記吧!

相關文章
相關標籤/搜索