注:本文同步發佈於微信公衆號:stringwu的互聯網雜談 數據分析雜談
筆者只是一個客戶端工程師,不是專業的數據分析師,只是碰巧在工做中與數據打交道比較多,作過客戶端的數據傳輸SDK,客戶端無埋點SDK,寫過hive腳本,也折騰過spark,也作過不一樣通道數據的差別分析,僅此而已。本文試圖從筆者自身有限的經歷中,給你們普及些數據分析的入門知識。算法
分割線
——————————————————————————sql
什麼是數據分析?數據分析說白了就是讓數據變成生產力的一部分,是從海量的數據中窺視背後的業務邏輯,尋找出新的業務增加目標,或者及時發現業務潛在的問題。數據分析實際上是服務於業務需求的,脫離了業務需求的數據分析就是在「打黑工」。微信
本文會嘗試從數據分析的流程,分析技能,名詞,指標體系,分析方法,商業化模型幾個方面簡要介紹數據分析涉及到一些知識。框架
1 數據分析流程
數據分析流程是一個思惟框架,主要幫助和指導咱們如何去作數據分析。目前業務數據分析標準流程爲CRISP-DM(Cross-industry standard process for data mining)
數據分析wiki;整個分析流程分爲六個部分工具
- 業務理解(business understanding)
- 數據理解(data understanding)
- 數據準備(data preparation)
- 創建模型(modeling)
- 評估模型(evaluation)
- 部署(deployment)
1.1 業務理解
業務理解核心是理解業務的背景,並評估分析需求是否可落地爲數據分析項目。好比若是想要分析push
的到達率,則須要理解消息在整個push
系統會通過哪幾個路徑,從在線push到第三方離線push,從客戶端收到push消息,到push消息的處理,再到push消息的展示,這裏的每個行爲路徑均可能會引發到達率的變化。理解了push系統的運行機制,纔有可能對push
的到達率去進行分析落地。學習
1.2 數據理解
- 數據收集:抽取的數據必須可以正確反映業務需求,不然分析結論會對業務形成誤解
- 數據清洗:原始數據中存在數據缺失和髒數據,若是不處理會致使模型失效,所以對數據經過過濾「去噪」,從而提取出有效數據;
仍是以push到達率的分析爲例子,數據收集則是收集到達每一個路徑時的push消息的數據,而且能用惟一標識對push在路徑上的表現進行串聯。
1.3 數據準備
- 數據探索:經過統計方法對數據進行處理分析,發現數據內部的規律;
- 數據轉換:爲達到模型的輸入數據要求,須要對數據進行轉換,包括生成衍生變量、一致化、標準化等;
如特徵描述,分佈特性優化
1.4 創建模型
- 選擇方法、工具、創建模型:綜合考慮業務需求精度,數據狀況,成本等因素,選擇最適合的模型,在實踐中對於一個分析目的,每每須要運用多個模型,而後經過後續的模型評估,進行優化、調整,以尋求最合適的模型;
如:
- 分析與迴歸:svm算法,
- 聚類分析
- 關聯分析
- 時序模型
- 結構優化
1.5 模型評估
- 建模過程評估:對模型的精度、準確性、效率和通用性進行評估;
- 模型結果評估:評估是否有遺漏的業務,模型結果是否回答了當初的業務問題,須要結合業務進行評估;
1.6 應用
- 分析結果應用:將模型應用於業務實踐,才能解決業務問題,並實現數據分析的真正價值
- 分析模型改進:對模型應用效果的及時跟蹤和反饋,以便後期的模型調整和優化;
全部的數據分析問題,不論是技術數據,仍是產品數據均可以按照這個流程去進行分析,該流程能夠很清晰地指導每一步須要作什麼,不會毫無頭緒,不知道從哪裏入手去進行分析;ui
2 經常使用名詞
- ROI(return on investment):投資回報率
- LTV(life time value):用戶生命週期價值(用戶在使用應用時能貢獻多少收入)
- ARPU(average revenue per user) :每一個用戶的平均價值
- CTR(click through rate) :點擊經過率(點擊/曝光)
- CPM(cost per mille) : 廣告千次曝光成本
- CPC(cost per click) :點擊成本
- CPA(click per action) :一個動做的點擊成本
3 數據指標體系
數據指標體系是指針對一種具體的業務場景,爲了完成該場景的分析目標(分析問題和解決問題),搭建的技術體系,將業務的不肯定性的描述轉化爲肯定性的數據描述。
咱們在創建數據指標體系時,最好須要包含一個指標文檔,文檔裏須要有如下內容:lua
- 指標:說明這是什麼指標,如點擊經過率;
- 指標口徑:該指標是怎樣統計出來的,數據來源是哪裏;
- 代碼計算:核心的sql語句
- 備註:某些事項的文檔化,如指標口徑更改等;
- 責任人:該指標是誰負責的,可包括具體的產品,研發,數據分析的同窗;
3.1 互聯網常見的指標體系
3.1.1 基礎指標
- 日活 :每日活躍的用戶數(設備數),可區分UV 和PV
- 新增 : 每日新增的用戶數(設備數);
- PV (page visit) :用戶每瀏覽一次,則記錄爲一個PV,同一用戶屢次瀏覽會記錄多個PV
- UV (user visit) : 一個用戶瀏覽算一次UV,同一用戶屢次瀏覽只會記錄一個UV;
- 時長和次數:如單次訪問時長,人均訪問時長,人均訪問次數
- 留存率:第二天留存、7日留存、30日留存;
3.2.1 內容指標
- 請求數 : 天天該內容的請求數;
- 曝光數 :天天該內容的實際曝光數(用戶可見)
- 點擊數 :用戶對該內容的互動點擊數
- 評論 :用戶對該內容的互動評論數
- 分享 :用戶對該內容的互動分享數
- 點贊:用戶對該內容的互動點贊數
3.2.2 渠道指標
- 有效新增 : 每一個渠道帶來的實際用戶數;(如經過該渠道進行首次註冊,登陸等行爲)
- 留存率(第二天留存,7日留存,30日留存):主要用來評價該渠道的質量
- 渠道單價 : 每帶來一個用戶的實際支付價格;
咱們能夠根據這幾個指標去衡量一個渠道的好壞,在投放時根據渠道的質量,對優質渠道增長投放,減小甚至不投放劣質的渠道。
4 數據分析技能
數據分析須要具有必定的理論知識和分析思惟spa
4.1 理論知識
- 機率相關:獨立事件、相關事件、指望、貝葉斯等
- 機率分析:離散機率分佈,連續機率分佈;
- 統計推斷:置信區間、假設檢驗、抽樣
4.2 分析思惟
- 漏斗思惟 :
- 分類思惟 : 對用戶進行劃分,如根據年齡,地域,愛好等進行劃分分析;
- 平衡思惟
- AB test : 實驗行爲;
5 分析框架與方法
5.1 數據分析方法
- 結構分析法:如按人羣劃分;
- 對比分析:同比,環比,須要有對應的柱狀圖;
- 時序序列分析:按照事件時間分析,對應折線圖;
- 密度分佈:服務什麼分佈,對應的分佈圖;
- 相關分析法:如留存率與文章質量,對應散點圖 + 折線圖
5.2 數據分析模型
5.2.1 RFM模型
RFM(Recency,Frequency,Money)模型通常是用於篩選出須要重點運營的用戶:
- Recency:最近一次消費時間 ,通常以周或雙週爲單位
- Frequency : 消費頻率,固定週期的消費次數,通常以月或者雙月爲單位;
- Money:消費的金額,通常以月或者雙月爲單位
通常能夠經過對RFM數據進行標準化標準化,把RFM模型變爲打分模型,經過能夠有效圈選出可持續運營的高質量用戶
5.2.2 AARRR模型
- Acquistion :獲取(渠道分析,用戶如何發現你的產品)
- Activation :激活(啓動運營分析,用戶第一次使用體驗如何)
- Retention:提升留存:(留存分析,用戶是否會重複使用產品)
- Revenve :收入(商業化分析,怎樣賺錢)
- Reter : 自傳播(裂變分析,用戶是否願意告訴其餘用戶)
做用:找到增加的切入點,拉新,提頻,收入;
5.2.3 用戶生命週期模型
- 導入期 :已完成註冊,但尚未深刻體驗產品功能或服務的用戶(可經過登陸次數和訪問時長等指標是衡量)
- 成長期:已經較深刻體驗產品相關的服務或功能,並完成首次關鍵行爲的用戶(關鍵行爲能夠是一個下載,一個互動,視業務而定);
- 成熟期:已經發生屢次付費行爲的用戶(每一個用戶價值的巔峯,能貢獻最多的活躍時長和營收)
- 休眠期:曾經是成熟用戶,但一段時間內未產生有價值的行爲(有價值的行爲也視業務而定,能夠是下載,互動,付費等行爲);
- 流失期:超過一段時間未登陸和訪問的用戶(視業務形態而定,須要明確流失定義和關鍵行爲,如超過一個月未登陸等)
能夠經過對用戶行爲數據的分析,對用戶進行分類,進而視當前產品所處階段,採用不一樣的運營手段;
6 總結
本文只是筆者在工做時,做爲業餘的愛好進行的學習總結,相對比較基礎,可視爲小白瞭解數據分析的一個參考文章。若是須要深刻數據分析領域還須要專門的系統化學習。