數據分析雜談

時間 2020-09-20

標籤數據分析雜談简体版

原文原文鏈接

注：本文同步發佈於微信公衆號：stringwu的互聯網雜談 數據分析雜談
筆者只是一個客戶端工程師，不是專業的數據分析師，只是碰巧在工做中與數據打交道比較多，作過客戶端的數據傳輸SDK,客戶端無埋點SDK，寫過hive腳本，也折騰過spark,也作過不一樣通道數據的差別分析，僅此而已。本文試圖從筆者自身有限的經歷中，給你們普及些數據分析的入門知識。算法

分割線
——————————————————————————sql

什麼是數據分析？數據分析說白了就是讓數據變成生產力的一部分，是從海量的數據中窺視背後的業務邏輯，尋找出新的業務增加目標，或者及時發現業務潛在的問題。數據分析實際上是服務於業務需求的，脫離了業務需求的數據分析就是在「打黑工」。微信

本文會嘗試從數據分析的流程，分析技能，名詞，指標體系，分析方法，商業化模型幾個方面簡要介紹數據分析涉及到一些知識。框架

1 數據分析流程

數據分析流程是一個思惟框架，主要幫助和指導咱們如何去作數據分析。目前業務數據分析標準流程爲CRISP-DM(Cross-industry standard process for data mining) 數據分析wiki;整個分析流程分爲六個部分工具

業務理解（business understanding）
數據理解(data understanding)
數據準備(data preparation)
創建模型（modeling）
評估模型（evaluation）
部署（deployment）

1.1 業務理解

業務理解核心是理解業務的背景，並評估分析需求是否可落地爲數據分析項目。好比若是想要分析push的到達率，則須要理解消息在整個push系統會通過哪幾個路徑，從在線push到第三方離線push，從客戶端收到push消息，到push消息的處理，再到push消息的展示，這裏的每個行爲路徑均可能會引發到達率的變化。理解了push系統的運行機制，纔有可能對push的到達率去進行分析落地。學習

1.2 數據理解

數據收集：抽取的數據必須可以正確反映業務需求，不然分析結論會對業務形成誤解
數據清洗：原始數據中存在數據缺失和髒數據，若是不處理會致使模型失效，所以對數據經過過濾「去噪」，從而提取出有效數據；
仍是以push到達率的分析爲例子，數據收集則是收集到達每一個路徑時的push消息的數據，而且能用惟一標識對push在路徑上的表現進行串聯。

1.3 數據準備

數據探索：經過統計方法對數據進行處理分析，發現數據內部的規律；
數據轉換：爲達到模型的輸入數據要求，須要對數據進行轉換，包括生成衍生變量、一致化、標準化等；

如特徵描述，分佈特性優化

1.4 創建模型

選擇方法、工具、創建模型：綜合考慮業務需求精度，數據狀況，成本等因素，選擇最適合的模型，在實踐中對於一個分析目的，每每須要運用多個模型，而後經過後續的模型評估，進行優化、調整，以尋求最合適的模型；
如：
- 分析與迴歸：svm算法，
- 聚類分析
- 關聯分析
- 時序模型
- 結構優化

1.5 模型評估

建模過程評估：對模型的精度、準確性、效率和通用性進行評估；
模型結果評估：評估是否有遺漏的業務，模型結果是否回答了當初的業務問題，須要結合業務進行評估；

1.6 應用

分析結果應用：將模型應用於業務實踐，才能解決業務問題，並實現數據分析的真正價值
分析模型改進：對模型應用效果的及時跟蹤和反饋，以便後期的模型調整和優化；

全部的數據分析問題，不論是技術數據，仍是產品數據均可以按照這個流程去進行分析，該流程能夠很清晰地指導每一步須要作什麼，不會毫無頭緒，不知道從哪裏入手去進行分析；ui

2 經常使用名詞

ROI(return on investment):投資回報率
LTV(life time value):用戶生命週期價值（用戶在使用應用時能貢獻多少收入）
ARPU(average revenue per user) :每一個用戶的平均價值
CTR(click through rate) :點擊經過率（點擊/曝光）
CPM(cost per mille) : 廣告千次曝光成本
CPC(cost per click) :點擊成本
CPA(click per action) :一個動做的點擊成本

3 數據指標體系

數據指標體系是指針對一種具體的業務場景，爲了完成該場景的分析目標（分析問題和解決問題），搭建的技術體系，將業務的不肯定性的描述轉化爲肯定性的數據描述。
咱們在創建數據指標體系時，最好須要包含一個指標文檔，文檔裏須要有如下內容：lua

指標：說明這是什麼指標，如點擊經過率；
指標口徑：該指標是怎樣統計出來的，數據來源是哪裏；
代碼計算：核心的sql語句
備註：某些事項的文檔化，如指標口徑更改等；
責任人：該指標是誰負責的，可包括具體的產品，研發，數據分析的同窗；

3.1 互聯網常見的指標體系

3.1.1 基礎指標

日活：每日活躍的用戶數（設備數），可區分UV 和PV
新增：每日新增的用戶數（設備數）；
PV (page visit) :用戶每瀏覽一次，則記錄爲一個PV,同一用戶屢次瀏覽會記錄多個PV
UV (user visit) : 一個用戶瀏覽算一次UV,同一用戶屢次瀏覽只會記錄一個UV;
時長和次數：如單次訪問時長，人均訪問時長，人均訪問次數
留存率：第二天留存、7日留存、30日留存；

3.2.1 內容指標

請求數 : 天天該內容的請求數；
曝光數：天天該內容的實際曝光數（用戶可見）
點擊數：用戶對該內容的互動點擊數
評論：用戶對該內容的互動評論數
分享：用戶對該內容的互動分享數
點贊：用戶對該內容的互動點贊數

3.2.2 渠道指標

有效新增：每一個渠道帶來的實際用戶數；（如經過該渠道進行首次註冊，登陸等行爲）
留存率（第二天留存，7日留存，30日留存）：主要用來評價該渠道的質量
渠道單價：每帶來一個用戶的實際支付價格；
咱們能夠根據這幾個指標去衡量一個渠道的好壞，在投放時根據渠道的質量，對優質渠道增長投放，減小甚至不投放劣質的渠道。

4 數據分析技能

數據分析須要具有必定的理論知識和分析思惟spa

4.1 理論知識

機率相關：獨立事件、相關事件、指望、貝葉斯等
機率分析：離散機率分佈，連續機率分佈；
統計推斷：置信區間、假設檢驗、抽樣

4.2 分析思惟

漏斗思惟：
分類思惟：對用戶進行劃分，如根據年齡，地域，愛好等進行劃分分析；
平衡思惟
AB test ：實驗行爲；

5 分析框架與方法

5.1 數據分析方法

結構分析法：如按人羣劃分；
對比分析：同比，環比，須要有對應的柱狀圖；
時序序列分析：按照事件時間分析，對應折線圖；
密度分佈：服務什麼分佈，對應的分佈圖；
相關分析法：如留存率與文章質量，對應散點圖 + 折線圖

5.2 數據分析模型

5.2.1 RFM模型

RFM(Recency,Frequency,Money)模型通常是用於篩選出須要重點運營的用戶：

Recency:最近一次消費時間，通常以周或雙週爲單位
Frequency ：消費頻率，固定週期的消費次數，通常以月或者雙月爲單位；
Money:消費的金額，通常以月或者雙月爲單位

通常能夠經過對RFM數據進行標準化標準化，把RFM模型變爲打分模型，經過能夠有效圈選出可持續運營的高質量用戶

5.2.2 AARRR模型

Acquistion :獲取（渠道分析，用戶如何發現你的產品）
Activation :激活（啓動運營分析，用戶第一次使用體驗如何）
Retention:提升留存：（留存分析，用戶是否會重複使用產品）
Revenve :收入（商業化分析，怎樣賺錢）
Reter ：自傳播（裂變分析，用戶是否願意告訴其餘用戶）

做用：找到增加的切入點，拉新，提頻，收入；

5.2.3 用戶生命週期模型

導入期：已完成註冊，但尚未深刻體驗產品功能或服務的用戶（可經過登陸次數和訪問時長等指標是衡量）
成長期：已經較深刻體驗產品相關的服務或功能，並完成首次關鍵行爲的用戶（關鍵行爲能夠是一個下載，一個互動，視業務而定）；
成熟期:已經發生屢次付費行爲的用戶（每一個用戶價值的巔峯，能貢獻最多的活躍時長和營收）
休眠期：曾經是成熟用戶，但一段時間內未產生有價值的行爲（有價值的行爲也視業務而定，能夠是下載，互動，付費等行爲）；
流失期：超過一段時間未登陸和訪問的用戶（視業務形態而定，須要明確流失定義和關鍵行爲，如超過一個月未登陸等）

能夠經過對用戶行爲數據的分析，對用戶進行分類，進而視當前產品所處階段，採用不一樣的運營手段；

6 總結

本文只是筆者在工做時，做爲業餘的愛好進行的學習總結，相對比較基礎，可視爲小白瞭解數據分析的一個參考文章。若是須要深刻數據分析領域還須要專門的系統化學習。

相關文章

相關標籤/搜索

Python數據分析

數據分析師

數據分析_excel

雜談\Java\數據庫

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<