在業務發展過程當中,會產生大量的數據,單看數據是沒有價值的,只有和業務相結合轉化爲信息,再通過處理才能體現其價值。數據庫
對於業務數據而言,一般分爲兩項:其一是維度,其二是度量,或者說是指標,這兩項構成了咱們數據分析的基礎。markdown
對於結構化數據,咱們能夠理解爲一個多維立方體(cube),裏面存在着維度和度量。架構
固然,不只僅是三維,還能夠有多個維度。工具
這裏拿三維立方體模型進行舉例:網站
想象你操做數據透視表的模式,能夠經過鑽取、切片、切塊、上卷、旋轉等多種方式來對這個cube進行多維度觀察,記錄對比多個度量值,從而獲取到數據所描繪的業務現狀,繼而經過對比產生對業務發展的洞察,從而制定出相應的決策。ui
然而在實際的業務運營中,單純從幾個維度並不能完整的瞭解業務發展的狀態,咱們須要從更深的層次去觀察業務,更須要在業務指標出現問題時快速定位緣由,這就須要經過構建合適的指標體系來實現。spa
a) 缺指標 b) 缺維度 c) 口徑不一樣義設計
結果是:報表臃腫,產品反覆迭代,頻繁驗證數據日誌
a) 修改原有表結構,如增長存儲列 b) 修改SQL計算邏輯 c) 數據回算 d) 從新展現數據結果excel
經過指標體系監測業務發展的情況,最大的價值就是高效利用時間,把時間花在解決問題上,而不是尋找問題上,從而提升總體的人效。
指標體系的輸出結果應當是一份指標字典和對應的Dashboard展現,須要至少知足如下要求:
參考 :OSM模型(Obejective,Strategy,Measurement)分別表明業務目標、業務策略、業務度量。
目標(obejective):保費達到預期值100億
策略(Strategy):增長保費主頁面入口等等
度量(Measurement):各粒度下的保費UV,PV人數統計
還有PLC,三級指標,AARRR,HEART,PULSE模型等等
基於橫向的數據指標,再對數據指標進行層級劃分,劃分指標層級可以幫助公司搭建一套完整的數據監控指標體系,從而及時發現業績的升高或下降,以及產生的緣由,節省花在尋找問題上的時間。
指標分級主要是將指標化解爲不一樣層級並逐級分析。根據企業戰略、企業組織及業務進行自上而下的分級,對指標進行層層剖析,能夠幫助咱們更高效的去定位問題,去驗證你的方法論,無需每次都要思考要去看哪些指標。
a) 公司戰略層面指標,公司承認、衡量業績的核心指標 b) 衡量公司總體目標完成狀況,與公司當前業務緊密結合,並對全部員工均有核心的指導意義 c) 通常爲結果性指標
一級指標一般根據市場、產品生命週期、產品品類和商業模式肯定,一個時間點只有一個最關鍵的指標(OMTM,One Metric That Matters)。
好比:公司的保費額,保費產品的活躍度
a) 業務策略層面指標,二級指標是一級指標的路徑指標
爲達成戰略目標,公司會對其進一步拆解爲業務線或事業羣的核心指標。一般爲了實現一級指標,企業會作 出相應的策略,二級指標也會與這些策略有所關聯。
一級指標發生變化的時候,經過查看二級指標,可以快速定位問題的緣由所在。
好比uv、轉化率、客戶單價,經過這三個指標能夠快速定位銷售額下降的緣由。
能夠理解爲一級指標的分解 例如:公司要增長保費目標,新增了一些活動,加大了廣告投入等措施
b) 業務執行層面指標,三級指標對二級指標的路徑的拆解,便是二級指標的過程性指標
三級指標是將二級指標縱向展開,進行路徑拆解、漏斗拆解、公式拆解。
三級指標一般用於定位二級指標的問題,一般指導一線運營或分析人員開展工做。
三級指標是業務中最多的指標。
能夠高效定位二級指標波動的緣由,並能夠快速作出相應的動做
能夠理解爲某個銷售小組或者某我的的業績完成狀況
一般咱們講述的指標是對當前業務有參考價值的統計數據,換句話說,不是全部的數據都叫指標。指標的核心意義是它使得業務目標可描述、可度量、可拆解。經常使用的指標有PV、UV等。
在構建指標體系的過程當中,首要動做就是明確指標的分類以及約束指標命名方式,使各個指標可以作到見名知意、減小溝通成本
指標可分爲原子指標和派生指標。
原子指標是基於某一業務事件行爲下的度量,是業務定義中不可再拆分的指標,是具備明確業務含義的名詞 ,體現明確的業務統計口徑和計算邏輯。
按照個人理解,原子指標就是不加任何修飾詞的指標,又叫度量,例如訂單量、用戶量、支付金額等
衍生/派生指標就是在原子指標上進行加減乘除或者修飾詞的限定等等。
派生指標是對原子指標業務統計範圍的圈定,例如:昨日境外輸入病例、網站近一週的訪問量等。
衍生指標是基於原子指標組合構建的,例如:客單價 = 支付金額 / 買家數。
原子指標=業務過程+度量
派生指標=時間週期+修飾詞+原子指標,派生指標能夠理解爲對原子指標業務統計範圍的圈定。
原子指標
通常放在dwd層 能與ods層(業務數據庫)指標一一對應 粒度與業務數據庫粒度應該一致
衍生指標
通常放在dm層 等價於= (一個或多個原子指標 | 一個或多個其餘衍生指標) + (修飾詞) + (時間)
業務板塊:比數據域更高維度的業務劃分方法,適用於特別龐大的業務系統。
業務過程:指企業的業務活動事件,以下單、支付、退款都是業務過程,請注意,業務過程是一個不可拆分的行爲事件,通俗的講,業務過程就是企業活動中的事件。
修飾類型:是對修飾詞的一種抽象劃分。修飾類型從屬於某個業務域,如日誌域的訪問終端類型涵蓋無線端、PC端等修飾詞。
修飾詞:指出了統計維度之外指標的業務場景限定抽象,修飾詞隸屬於一種修飾類型,若是在日誌域的訪問終端類型下,有修飾詞PC端、無線端等。
時間週期:用來明確數據統計的時間範圍或者時間點,如最近30天、天然周、截至當日等。
度量/原子指標:原子指標和度量含義相同,基於某一業務事件行爲下的度量,是業務定義中不可再拆分的指標,具備明確業務含義的名詞,一般是業務過程+度量組合而成,如支付金額。
維度:維度是度量的環境,用來反映業務的一類屬性,這類屬性的集合構成一個維度,也能夠成爲實體對象。維度屬於一個數據域,如地理緯度、時間維度。例如, 在分析交易過程時,能夠經過買家、賣家、商品和時間等維度描述交易發生的環境。
衍生指標:衍生指標=一個原子指標+多個修飾詞(可選)+時間週期。能夠理解爲對原子指標業務統計範圍的圈定。如原子指標:支付金額,最近一天海外買家支付金額則爲派生指標(最近1天爲時間週期,海外爲修飾詞,買家做爲維度,而不做爲修飾詞)
指標體系是從不一樣維度梳理業務,並將零散單點的具備相互聯繫的指標,系統化地組織起來。其中,維度分爲定性維度和定量維度,定性維度主要是文字描述類,例如姓名、地名等;定量維度主要是數值描述類,如工資、年齡等。
數據指標能夠分爲可加、不可加、半可加的 **可加:**例如保費是可加的 **不可加:**比率 **半可加:**累計保費,在時間維度不可加
不可加能夠放在報表層處理
數據倉庫是面向主題(數據綜合、歸類並進行分析利用的抽象)的應用。數據倉庫模型設計除橫向的分層外,一般也須要根據業務狀況進行縱向劃分數據域。數據域是聯繫較爲緊密的數據主題的集合,是業務對象高度歸納的概念層次歸類,目的是便於數據的管理和應用。
數據域是指面向業務分析,將業務過程或者維度進行抽象的集合。爲保障整個體系的生命力,數據域須要抽象提煉,並長期維護更新。在劃分數據域時,既能涵蓋當前全部的業務需求,又能讓新業務在進入時能夠被包含進已有的數據域或擴展新的數據域。數據域的劃分工做能夠在業務調研以後進行,須要分析各個業務模塊中有哪些業務活動。
數據域能夠按照用戶企業的部門劃分,也能夠按照業務過程或者業務板塊中的功能模塊進行劃分。
**業務線 :**用戶 車險 健康險 公衆號 日誌
點擊 瀏覽 曝光 等等
詢價 投保 覈保 承保 理賠 等等
隨車 等等(一般能夠理解爲交叉數據域)
**數據總線:**一致維度(dwd層已開發) **彙總層:**能夠是面向部門的,也能夠是面向業務的
明確每一個數據域下有哪些業務過程後,便可構建總線矩陣。
同時須要明確業務過程與哪些維度相關,並定義每一個數據域下的業務過程和維度。
構建總線矩陣的重點在於:
基於以上兩點,宏觀上構建業務主題與數據域之間的關係,微觀上構建業務主題中的業務過程與維度之間的關係。
宏觀矩陣是業務主題和數據主題的關係,因爲社區數倉僅涉及社區業務主題,故這裏僅放置社區涉及到的業務過程。
微觀矩陣是數據主題和維度的關係。
在構建微觀業務矩陣的時候,須要結合對業務過程的分析定義維度,根據業務的不一樣形態須要從不一樣的維度進行分析,這個維度的定義須要結合業務場景與分析指標,最終定義以下:
基於以上獲得的總線矩陣,咱們能夠進行以下模型的設計:
1)**明細模型設計:**設計一致性維表DIM和一致性事實表DWD
2)**彙總模型設計:**設計公用匯總層DWS和應用匯總層ADS
這一步須要依據以前使用OSM模型和指標分層構建的指標體系,對數據進行計算,標準化命名,而後將涉及到的指標計算出來。
例如,經過訪問事實表計算社區的用戶數、社區各子板塊的用戶數,並拆分平臺、版本和用戶類型。
數倉分層的目的在於咱們但願數據的流轉可以更加有序可控,減小重複開發,統一數據口徑,且可以及時有效的響應多樣的數據需求,參照以下結構,將數據進行組織:
DWD層:明細事實層
DWS層:主題彙總層,這一步能夠拆分兩層:
按照如下層級調用標準進行分層計算:
BI工具,主要有可視化展現和多維展現。須要考慮公司的組織架構,BI工具能力以及用戶使用體驗等綜合考慮。
主流的BI工具有國外的tableau、powerbi;國內表明的BI產品有網易有數、阿里的QuickBI、smartBI。不過以上的BI平臺是收費,而且可定製化並無那麼強。
開源的BI工具國外的有superset、redash、metabase,國內的主要有CBoard和Davinci
展現層須要知足如下功能:
此外,將全部數據展現在同一張DashBoard上確定會是不現實的,因此須要按照分析主題將DashBoard規劃爲如下層級:
數據在通過ETL以後就計算出了咱們須要的指標,可是在數據的計算過程當中,咱們會遇到不少計算口徑的問題,須要咱們和運營、技術、產品一塊兒屢次明確口徑。
好比用戶屢次瀏覽頁面算不算次數等相似問題。。。
在最後階段,咱們要將計算過程當中每個指標的計算口徑,異常值的處理等等輸出一份指標字典,以便咱們和運營之間進行溝通。
指標字典的輸出必須明確的三個要素是:指標名稱、指標描述、計算方式
公司能夠開發數據指標系統,沒條件用EXCEL進行展現