Data - 數據思惟 - 上

1 - 概念與定義

若是分析思惟是一種結構化思考的體現,那麼數據分析思惟(簡稱數據思惟)則是以數據爲依託的結構化分析方式。
不一樣於「我以爲」、「之前是怎樣」、「其餘人如何」這些直覺化、經驗化、類比化的思考方式,數據思惟是以數據爲導向,依據嚴格的分析、統計和證實來指導具體的應用與操做。算法

首先,要對事物自己有一個全面和客觀的認識。框架

  • 以辯證思惟來認識和看待事物,進行事物的分解和集成,全面客觀地以數聽說話,同時減小主觀偏頗見解,
  • 結合外部環境、時間線、核心維度,全面的分析物的行爲特徵或動態展示
  • 關注事物的外在交互關係、內部結構和銜接,分析事物相關的內外環境因素

而後,肯定事物自己的關鍵屬性、維度和分析評估體系。
分析事物各關鍵指標特性間的相互制約和促進力。
任何評估指標值的得出,必定有事物自己內在數據和運做機制進行支撐的,也就是說,將對事物分析後的數據映射到具體的可用的科學評價體系之上。機器學習

1.1 - 數據分析的目的

明確數據分析自己的目的,以終爲始。
數據分析是爲了能以量化的方式來分析業務問題並得出結論。
「從歷史數據中得到的洞察轉化爲可執行的決策或推薦的過程,將IT技術、管理科學和統計學結合以解決實際問題。」工具

1.2 - 數據分析的通常步驟

業務指導數據,數據驅動業務。
數據分析並非一個結果,只是過程,在這個過程當中是須要反饋和持續改進的。
學習

1.3 - 數據分析的做用

數據分析的三大做用,主要是:現狀分析、緣由分析和預測分析。
何時開展什麼樣的數據分析,須要根據咱們的需求和目的來肯定。優化

  • 數據分析的目的越明確,分析越有價值。
  • 明確目的後,須要梳理思路,搭建分析框架,把分析目的分解成若干個不一樣的分析要點,而後針對每一個分析要點肯定分析方法和具體分析指標;
  • 最後,確保分析框架的體系化(體系化,即先分析什麼,後分析什麼,使得各個分析點之間具備邏輯聯繫),使分析結果具備說服力。

1.4 - 數據常識(Data Common Sense)

對數據的變化保持敏感。
這裏的「變化」不只僅來自數值自己的變更,更多的而來自「當前的數據」不一樣於日常的認知和判斷。
而這種「日常的認知和判斷」,其實不只是長期數據觀察和分析所造成的「感受」,也是你的「經歷和經驗」,甚至是「當前的知識結構和能力樹」。
可以認識到「變化」的來源,能有效避免掉入「主觀判斷」的陷阱。設計

想要培養出數據敏感性和具有意識數據偏離的能力,這須要保持持久的觀察和分析,以及足夠的耐心和好奇心。
業務數據對應着業務流程,業務流程暗含着業務需求,業務需求來自實際運營,從實際應用中去理解數據的產生和流動,有助於準確保持數據分析的「方向」不偏離「正軌」。對象

  • 造成查看關注數據的習慣,明確數值含義以及合理範圍
  • 牢記核心數據、指標、報告和排名等,反覆推算合理性
  • 抽離和規整數據,統一存放,方便查閱和分析

2 - 搭建框架

量化是爲了統一認知,而且確保路徑可回溯,可複製,避免「我感受」、「我猜想」等主觀判斷。
路徑可回溯、可複製:經過量化後的結果,許多優化的方法是能夠被找到緣由而且能夠被複制的。
要想作到量化,須要作到三點:創建量化體系,明確量化重點和保證數據準確性。blog

2.1 - 創建量化體系

若是不能衡量,那麼就不能有效增加和改進。
須要統一標準來定義和評價,這個標準就是指標。
具體的指標數值,能夠避免「我以爲」形成的認知陷阱,「模糊虛妄」的描述會將人帶入歧途。事件

2.2 - 明確量化重點

每一個階段,都應該明確當前的業務重點;量化體系須要根據業務階段,更改量化重點及方式。
這同時意味着:有更細節的指標及更大的監控和推廣力度。
每一個階段,都須要根據不一樣的業務狀況來判斷當前重點,從而圍繞該重點創建一套無死角的分析監控體系。

2.3 - 指標設計方法

孤立的指標發揮不出數據的價值,須要創建結構化的指標體系。
不一樣業務形態有不一樣的指標體系,沒有放之四海而皆準的模板。
指標能細分和拆解,應該根據具體的狀況選擇指標,

  • 以準確和易懂爲準則,集合統計學和業務效果的方法論。
  • 準確是指可以準確知足衡量目的,易懂是指標算法能直觀顯示好與壞,而且指標的算法也可以通俗易懂。
  • 準確是必需要保證的。

一些用於指標設計的經常使用統計學工具

  • 業務概況: 平均數、中位數、衆數
  • 業務差別性:方差、標準差
  • 業務分佈:頻數

一些Tips

  • 比率指標:易於關注實際效果
  • 伴生指標:防止單個「片面性指標」的反作用
  • 防止壞指標:錯誤指標,虛榮指標(距離核心業務目標過遠),複雜指標(數據波動時,很難分析緣由)

指標維度字典(Dimension Dictionary)

  • 指標維度字典,(Bus Matrix),必定程度上解決了對於指標定義不清或不統一的問題。
  • 能夠對一些關鍵和經常使用的指標進行統一的維護。

明確指標的定義和解釋,要求制定者必須具有深刻了解業務和擁有極高的抽象能力。
尋找業界已有量化方法並在組織內推廣,將是件事半功倍的事情。

2.4 - 指標區分

「好指標」

  • 不是全部的指標都是有效的,核心驅動指標纔是須要重點關注的「好指標」。
  • 簡單來講,核心驅動指標和組織發展相關聯,是整個運營團隊、產品團隊乃至研發團隊在統一爲之努力的目標,是一個時期/階段內的重點方向。
  • 不一樣業務的核心驅動指標也不同。
  • "好指標"應該是在有效基數上的比率或者比例,易於衡量和對比。

「壞指標」

  • 虛榮指標:沒有任何的實際意義,可以粉飾工做績效
  • 後驗性指標:時效性差,實際上只是在描述已發生事件,很難經過措施挽回成本和彌補損失
  • 複雜性指標:數據分析掉入「一堆隱藏變量指標」的陷阱中,無從下手

2.5 - 創建正確的指標結構

根據「指標設計方法」創建起圍繞業務的指標體系。
核心是根據業務特徵肯定核心指標,在覈心指標的基礎上以不一樣的角度進行拆解,而後再慢慢補充其餘業務的指標狀況。

和分析思惟的金字塔結構同樣,拆解的過程依照金字塔方法論的「逐層拆解,不重不漏(MECE)」,指標呈現樹狀結構,構建核心是以業務流程爲思路,以結構爲導向。
從流程的角度搭建指標框架,能夠全面的囊括用戶相關數據,無有遺漏。
列舉指標原則:須要有核心驅動指標。移除虛榮指標,適當的進行刪減,不要爲添加指標而添加指標。
若拆解出來或業務補充的指標過多,可借鑑數據倉庫的「域」概念來管理這些指標。

3 - 數據準確性

確保準確性的方法

  • 採起可信來源:多來源交叉確認,採用新來源時需格外當心
  • 確認加工方式:指標定義和加工算法
  • Double Check:量級,計算邏輯和業務常識

Double Check 的技巧

  • 量級 Check:邊界值,每一個數據有它的大概範圍
  • 計算邏輯 Check:總數、中位數、平均數等
  • 業務常識 Check:根據其餘經常使用數字推算出該業務範圍

數據產品已經有成熟的數據質量管理方法;涉及了數據源,指標計算和數據呈現等各個環節的監控。

4 - 溝通與反饋

4.1 - 站在業務方的角度

只有解決業務問題分析才能創造價值,包括我的價值和公司價值。
「憂其所慮,給其所欲」:精準理解對方需求。

4.2 - 主要環節

  • 溝通充分:肯定業務方想要分析什麼,提出更合理專業的衡量和分析方式,明確所要數據背後的含義,同時作好節點同步,切忌一條路走到黑
  • 結論簡明:在闡述分析結果上,要記得結論先行,逐層講解,再提供論據。論據上,圖 > 表 > 文字
  • 提供信息量及可落地建議:從專業的角度,從已知邊界向未知邊界分析,提供給對方所未知的信息和可落地的建議
  • 尋求反饋:持續改進的觸發點

5 - 方式與方法

5.1 - 數據分析方法論和數據分析法的區別

數據分析方法論主要是從宏觀角度指導如何進行數據分析,就像是一個數據分析的前期規劃,指導着後期數據分析工做的開展。

  • 利用維度分析數據
  • 使用統計學知識,例如數據分佈假設檢驗
  • 使用機器學習

數據分析法主要從微觀角度指導如何進行數據分析,是指具體的分析方法,好比對比分析、交叉分析、相關分析、迴歸分析等。

5.2 - 維度分析法

維度是描述對象的參數,在具體分析中,能夠把它認爲是分析事物的角度。
有了維度後,就可以經過不一樣的維度組合,造成數據模型,一個多維的數據立方體。
數據模型將複雜的數據以結構化的形式有序的組織起來。
數據模型能夠從不一樣的角度和層面來觀察數據,這樣提升了分析的靈活性,知足不一樣的分析需求、這個過程叫作OLAP(聯機分析處理)。

5.3 - 指標和維度有什麼區別?

維度是說明和觀察事物的角度,指標是衡量數據的標準。
維度是一個更大的範圍,不僅是數據,好比時間維度和城市維度,咱們就沒法用指標表示,而指標(留存率、跳出率、瀏覽時間等)卻能夠成爲維度。
經過業務創建和篩選出指標,將指標做爲維度,利用維度進行分析,通俗理解:維度>指標。
通常來講,指標均可以做爲維度使用。

6 - 數據分析的Why-What-How

7 - 「耍流氓」

對待藥物,拋開劑量談毒性;計算回報,拋開週期談金額; 閱讀書目,拋開難度談頁數;能力評估,拋開經歷談年限; 諸如此類,邏輯混亂,流氓至極!

相關文章
相關標籤/搜索