數據分析雜談

注:本文同步發佈於微信公衆號:stringwu的互聯網雜談 數據分析雜談
筆者只是一個客戶端工程師,不是專業的數據分析師,只是碰巧在工做中與數據打交道比較多,作過客戶端的數據傳輸SDK,客戶端無埋點SDK,寫過hive腳本,也折騰過spark,也作過不一樣通道數據的差別分析,僅此而已。本文試圖從筆者自身有限的經歷中,給你們普及些數據分析的入門知識。算法

分割線
——————————————————————————sql

什麼是數據分析?數據分析說白了就是讓數據變成生產力的一部分,是從海量的數據中窺視背後的業務邏輯,尋找出新的業務增加目標,或者及時發現業務潛在的問題。數據分析實際上是服務於業務需求的,脫離了業務需求的數據分析就是在「打黑工」。微信

本文會嘗試從數據分析的流程,分析技能,名詞,指標體系,分析方法,商業化模型幾個方面簡要介紹數據分析涉及到一些知識。框架

1 數據分析流程

數據分析流程是一個思惟框架,主要幫助和指導咱們如何去作數據分析。目前業務數據分析標準流程爲CRISP-DM(Cross-industry standard process for data mining) 數據分析wiki;整個分析流程分爲六個部分工具

  • 業務理解(business understanding)
  • 數據理解(data understanding)
  • 數據準備(data preparation)
  • 創建模型(modeling)
  • 評估模型(evaluation)
  • 部署(deployment)

1.1 業務理解

業務理解核心是理解業務的背景,並評估分析需求是否可落地爲數據分析項目。好比若是想要分析push的到達率,則須要理解消息在整個push系統會通過哪幾個路徑,從在線push到第三方離線push,從客戶端收到push消息,到push消息的處理,再到push消息的展示,這裏的每個行爲路徑均可能會引發到達率的變化。理解了push系統的運行機制,纔有可能對push的到達率去進行分析落地。學習

1.2 數據理解

  • 數據收集:抽取的數據必須可以正確反映業務需求,不然分析結論會對業務形成誤解
  • 數據清洗:原始數據中存在數據缺失和髒數據,若是不處理會致使模型失效,所以對數據經過過濾「去噪」,從而提取出有效數據;
    仍是以push到達率的分析爲例子,數據收集則是收集到達每一個路徑時的push消息的數據,而且能用惟一標識對push在路徑上的表現進行串聯。

1.3 數據準備

  • 數據探索:經過統計方法對數據進行處理分析,發現數據內部的規律;
  • 數據轉換:爲達到模型的輸入數據要求,須要對數據進行轉換,包括生成衍生變量、一致化、標準化等;

如特徵描述,分佈特性優化

1.4 創建模型

  • 選擇方法、工具、創建模型:綜合考慮業務需求精度,數據狀況,成本等因素,選擇最適合的模型,在實踐中對於一個分析目的,每每須要運用多個模型,而後經過後續的模型評估,進行優化、調整,以尋求最合適的模型;
    如:
    • 分析與迴歸:svm算法,
    • 聚類分析
    • 關聯分析
    • 時序模型
    • 結構優化

1.5 模型評估

  • 建模過程評估:對模型的精度、準確性、效率和通用性進行評估;
  • 模型結果評估:評估是否有遺漏的業務,模型結果是否回答了當初的業務問題,須要結合業務進行評估;

1.6 應用

  • 分析結果應用:將模型應用於業務實踐,才能解決業務問題,並實現數據分析的真正價值
  • 分析模型改進:對模型應用效果的及時跟蹤和反饋,以便後期的模型調整和優化;

全部的數據分析問題,不論是技術數據,仍是產品數據均可以按照這個流程去進行分析,該流程能夠很清晰地指導每一步須要作什麼,不會毫無頭緒,不知道從哪裏入手去進行分析;ui

2 經常使用名詞

  • ROI(return on investment):投資回報率
  • LTV(life time value):用戶生命週期價值(用戶在使用應用時能貢獻多少收入)
  • ARPU(average revenue per user) :每一個用戶的平均價值
  • CTR(click through rate) :點擊經過率(點擊/曝光)
  • CPM(cost per mille) : 廣告千次曝光成本
  • CPC(cost per click) :點擊成本
  • CPA(click per action) :一個動做的點擊成本

3 數據指標體系

數據指標體系是指針對一種具體的業務場景,爲了完成該場景的分析目標(分析問題和解決問題),搭建的技術體系,將業務的不肯定性的描述轉化爲肯定性的數據描述。
咱們在創建數據指標體系時,最好須要包含一個指標文檔,文檔裏須要有如下內容:lua

  • 指標:說明這是什麼指標,如點擊經過率;
  • 指標口徑:該指標是怎樣統計出來的,數據來源是哪裏;
  • 代碼計算:核心的sql語句
  • 備註:某些事項的文檔化,如指標口徑更改等;
  • 責任人:該指標是誰負責的,可包括具體的產品,研發,數據分析的同窗;

3.1 互聯網常見的指標體系

3.1.1 基礎指標

  • 日活 :每日活躍的用戶數(設備數),可區分UV 和PV
  • 新增 : 每日新增的用戶數(設備數);
  • PV (page visit) :用戶每瀏覽一次,則記錄爲一個PV,同一用戶屢次瀏覽會記錄多個PV
  • UV (user visit) : 一個用戶瀏覽算一次UV,同一用戶屢次瀏覽只會記錄一個UV;
  • 時長和次數:如單次訪問時長,人均訪問時長,人均訪問次數
  • 留存率:第二天留存、7日留存、30日留存;

3.2.1 內容指標

  • 請求數 : 天天該內容的請求數;
  • 曝光數 :天天該內容的實際曝光數(用戶可見)
  • 點擊數 :用戶對該內容的互動點擊數
  • 評論 :用戶對該內容的互動評論數
  • 分享 :用戶對該內容的互動分享數
  • 點贊:用戶對該內容的互動點贊數

3.2.2 渠道指標

  • 有效新增 : 每一個渠道帶來的實際用戶數;(如經過該渠道進行首次註冊,登陸等行爲)
  • 留存率(第二天留存,7日留存,30日留存):主要用來評價該渠道的質量
  • 渠道單價 : 每帶來一個用戶的實際支付價格;
    咱們能夠根據這幾個指標去衡量一個渠道的好壞,在投放時根據渠道的質量,對優質渠道增長投放,減小甚至不投放劣質的渠道。

4 數據分析技能

數據分析須要具有必定的理論知識和分析思惟spa

4.1 理論知識

  • 機率相關:獨立事件、相關事件、指望、貝葉斯等
  • 機率分析:離散機率分佈,連續機率分佈;
  • 統計推斷:置信區間、假設檢驗、抽樣

4.2 分析思惟

  • 漏斗思惟 :
  • 分類思惟 : 對用戶進行劃分,如根據年齡,地域,愛好等進行劃分分析;
  • 平衡思惟
  • AB test : 實驗行爲;

5 分析框架與方法

5.1 數據分析方法

  • 結構分析法:如按人羣劃分;
  • 對比分析:同比,環比,須要有對應的柱狀圖;
  • 時序序列分析:按照事件時間分析,對應折線圖;
  • 密度分佈:服務什麼分佈,對應的分佈圖;
  • 相關分析法:如留存率與文章質量,對應散點圖 + 折線圖

5.2 數據分析模型

5.2.1 RFM模型

RFM(Recency,Frequency,Money)模型通常是用於篩選出須要重點運營的用戶:

  • Recency:最近一次消費時間 ,通常以周或雙週爲單位
  • Frequency : 消費頻率,固定週期的消費次數,通常以月或者雙月爲單位;
  • Money:消費的金額,通常以月或者雙月爲單位

通常能夠經過對RFM數據進行標準化標準化,把RFM模型變爲打分模型,經過能夠有效圈選出可持續運營的高質量用戶

5.2.2 AARRR模型

  • Acquistion :獲取(渠道分析,用戶如何發現你的產品)
  • Activation :激活(啓動運營分析,用戶第一次使用體驗如何)
  • Retention:提升留存:(留存分析,用戶是否會重複使用產品)
  • Revenve :收入(商業化分析,怎樣賺錢)
  • Reter : 自傳播(裂變分析,用戶是否願意告訴其餘用戶)

做用:找到增加的切入點,拉新,提頻,收入;

5.2.3 用戶生命週期模型

  • 導入期 :已完成註冊,但尚未深刻體驗產品功能或服務的用戶(可經過登陸次數和訪問時長等指標是衡量)
  • 成長期:已經較深刻體驗產品相關的服務或功能,並完成首次關鍵行爲的用戶(關鍵行爲能夠是一個下載,一個互動,視業務而定);
  • 成熟期:已經發生屢次付費行爲的用戶(每一個用戶價值的巔峯,能貢獻最多的活躍時長和營收)
  • 休眠期:曾經是成熟用戶,但一段時間內未產生有價值的行爲(有價值的行爲也視業務而定,能夠是下載,互動,付費等行爲);
  • 流失期:超過一段時間未登陸和訪問的用戶(視業務形態而定,須要明確流失定義和關鍵行爲,如超過一個月未登陸等)

能夠經過對用戶行爲數據的分析,對用戶進行分類,進而視當前產品所處階段,採用不一樣的運營手段;

6 總結

本文只是筆者在工做時,做爲業餘的愛好進行的學習總結,相對比較基礎,可視爲小白瞭解數據分析的一個參考文章。若是須要深刻數據分析領域還須要專門的系統化學習。

相關文章
相關標籤/搜索