第六週:統計學

當拿到一份數據的時候,首先會怎麼作?----描述性統計學,機率推斷統計。html

描述性統計學

數值數據:計算算法

分類數據:不能進行計算,例如,男1 女0 表明一個類別網絡

數值數據和分類數據能夠進行互相轉換函數

通常描述統計的方式方法:學習

1.分類數據的描述性統計:單純計數就能夠測試

2.數據描述統計:設計

3.統計度量:平均數--數據分佈比較均勻的狀況下進行,中位數,衆數,分位數(4分位、10分位、百分位)3d

4.圖形:code

5.權重預估(分位數)htm

6.數據分佈(波動狀況,標準差,方差)

7.數據標準化:

在實際用用的時候,有不少狀況量綱不一致(即數據單位不同)致使差別很大沒法進行比較

用數據標準化將數據進行必定範圍的壓縮,獲得的結果與數據業務意義無關,純粹是數據上的波動達到可進行對比。

xi:數據的具體值

u:平均值

σ:標準差

標準化以後通常都是在0上下直接按波動的數字,就能夠反應原始數據的典型特徵進行分析。

實例演示:時間趨勢下訂單的變化

單純的時間只是一種屬性,隱含的一種關係。不少銷量是跟時間有關係,可是時間的背後是根據用戶行爲或者一系列因素相關。而不是單純連續日期幾號的簡單關係。因此將案例數據須要進行初步整理(坦誠講~這個細節是比較吸引個人,由於在此以前一直是像上面所說,對日期進行簡單連續日期進行趨勢分析,獲得的結果的確不盡人意)添加週數和星期,將其轉化成日曆形式進行觀察。

顯然,標準化以後的趨勢顯得更加明顯清晰了,將趨勢擴張到肉眼辨識度提升的形態。

在後期處理的時候,建議用標準化的數據進行預估,由於標準化後已經將正負收斂到0的附近,而且能夠方便增長其餘關係參加預估。

切比雪夫定理,能夠幫助在知道標準差和平均數的狀況下,基本就知道數據的分佈狀況。

另外一種做用則一般用於異常值的檢測。

在數據越多的狀況下,數據越收斂,推算的能力就會越精準。

描述統計的可視化:

1.箱線圖:描述一組數據的分佈,同時反應分位數

用2016版本以上的Excel能夠直接利用數據做圖,如低版本的則須要利用輔助線來進行(以前可視化內容的標靶圖方法)繪製。

箱線圖相對比其餘柱形圖更有對數據的分析解讀性。

操做舉例:

上下邊緣線外部分散的點,可視分析狀況視爲異常值處理,若是想要分析的結果更精準,可視狀況將這部分異常值數據剔除。

可添加類別進行細緻分析。

2.直方圖:特殊的柱形圖,把條形圖下面的類別換成數據的柱形圖。

直方圖通常的是等距劃分,每個等距的距離不能重複。

直方圖的形狀有如下幾種:

標準型:分佈均勻較理想

陡壁型:比較容易出如今收費領域

鋸齒型:說明數據不夠穩定

孤島型:要研究分析孤島產生的緣由

偏峯型:銷售數據通常會產生偏鋒,通常會出現長尾(或左或右)

雙峯型:二者數據混合通常會造成雙峯

由直方圖引出一個統計學指標-

-偏度

---正太分佈

正太分佈的特殊應用:

描述性統計的計算值,可經過Excel裏面的數據--數據分析---描述性統計直接經過界面勾選須要內容進行計算。

機率推斷統計

推斷統計,描述一件事情發生的可能性

例如:拋硬幣的遊戲

事件:正面、反面

機率:50%


在B發生的機率下,A發生的機率是多少

當A與B之間無關聯的時候,則P(A|B)=P(A)

條件機率的關鍵點

貝葉斯定理


看到題目的時候與最後分析的結果相差巨大的緣由是由於上題目中,有多重誘因所致使。

事件發生會有不少緣由,咱們單純只知道結果的狀況下去反推緣由是不太好的。

貝葉斯公式:

P(A1):真實患者的機率

P(A2):實際爲健康人羣的機率

P(B):表明試紙查出患者的機率

P(B|A1):爲真實患者條件下試紙查出患者的機率,即99%

P(B|A2):爲健康人羣的條件下試紙查出患者的機率,即5%

P(A1)爲真實患者的機率0.1%,P(A2)爲健康率99.9%

i:爲特定場景下

貝葉斯特色:知道結果A已經發生了,想要推導出各類緣由發生的可能性有多大。(結果----->發生因素的機率)

對於貝葉斯多傾向用於機器算法。網絡上也有不少關於貝葉斯的解釋可供參考學習。

機率分佈

離散分佈

連續變量分佈

1.二項分佈:

是一種離散型的機率分佈。二項表明他有兩種可能的結果,把一種稱爲成功,另一種稱爲失敗。

每次成功和失敗的機率都是相同的,每次實驗相互獨立(拋硬幣是一個典型的二項分佈)

Excel計算機率示例:

機率密度=BINOM.DIST(3,10,0,1,FALSE)

抽3次以上,限制10次,中間機率是10%(示例需求詳見見課程)

2.泊松分佈:

主要用於預估某事件在特定的事件或者空間中發生的次數。好比一天內中獎的個數,一個月內機器損壞的次數等。

在任意一個單位區間、時間內發生的機率是相同的(知道平均發生的機率)。

每次事件相互獨立

x:想要知道具體發生的機率值

μ:平均機率值平均指望值

e:天然對數、常數

Excel計算機率示例:

=POISSON.DIST(x事件出現的次數,Mean指望值,邏輯值)

需求:想要知道在以前平均幾天中獎5次(前幾天天天中獎5次),下一時間段中獎機率是7次的機率是多少?

方法:=POISSON.DIST(7,5,TRUE)

TRUE是計算統計公式的機率累加值,同二項分佈公式中的FALSE同樣,FALSE是指單次,就是說恰好剛好發生7次的機率。

現實場景中,不能知足任意一個特定事件內或者空間內發生的次數機率是相同的,因此應用於現實場景中須要考慮實際條件。

通常現實生活中二項分佈會比較經常使用。

3.正態分佈

連續變量分佈是一個隨機變量在其區間內可以取任何數值所具備的分佈。正態分佈是一種連續型的隨機變量分佈。

世界上絕大多數分佈都屬於正態分佈。正態分佈的形狀是一條鍾型曲線。以均值爲中心左右對稱,形狀和均值μ以及方差有關。

切比雪夫定義,能夠幫助快速的估約數據。

正態分佈公式:

標準正態分佈:

均值爲0,方差爲1的正態分佈。

機率密度函數和累計分佈函數(在更多的應用場景中,更多的看累計分佈函數)

應用示例:

要求:標準正態分佈中,z小於等於1的機率?z在區間-1~1.25的機率?z大於2的機率?

方法:Excel計算機率示例

=NORM.DIST(X函數值的區間點1,算數平均數0,分佈的標準方差1,邏輯值TRUE累計分佈值)

求出的是小於等於某一個值

在必定區間的,求解方法至關於兩個區間的機率相減求面積。

求解大於的,1-前一段的面積。

用Excel可不用轉成標準正態分佈進行運算,可直接進行運算。

現實工做場景中,不多會碰見知足正態分佈的狀況,更多的是密率分佈,某個獎品隨機積分,質量檢測等知足正態分佈的狀況下使用。

【假設檢驗】
思想是反正法,若是一件事情發生的機率很小,可是它發生了,咱們就把這件事情的原始結論推翻。

個案的發生,不能去證實某一個結論,可是能夠去否認它。

例如:某個工廠的產品合格率是99.9999%,但咱們拿出100個樣本的時候,發現有2個不合格,這個時候就能去否認這個合格率了。

原假設H0:爲了驗證某一個假設是否發生,而去檢驗它。

備選假設H1:原假設不成立,則選擇備選假設,包含一切讓原假設不成立的機率。

原假設通常是小几率的事件,若是它發生了,咱們就要懷疑並拒絕它。若是沒發生,則接受它。

通常在作假設檢驗的時候,通常都是爲了把它否認掉。因此在設立原假設的時候通常設立的場景是比較寬泛,或是看上去比較常規正常個,看上去更像是可能發生的,而後用小几率把它否認掉。

1.A&B測試:原理就是假設檢驗

一般採用抽樣方式將數據劃分紅兩組,經過一組控制一組對照的方式進行觀察。

原假設爲測試沒有效果,分析師的目的是去否認它,當B組的數據和A組的數據有顯著差別時,則可否定它。

2.Z檢驗

由於AB測試的數據都比較大(較大的數據基礎容易把一些偏差淡化掉,波動不明顯),因此經常使用Z檢驗的方式進行驗證,核心方法是當標準差已知時,驗證A組合B組分均值是否相等。

Z檢驗公式:

示範案例:(具體詳見課程91課時)

用Excel可計算Z值:=SDTR

根號=SQRT()

算出z值後轉成正態分佈,利用正態分佈公式,把z值帶入由於是標準正態分佈,取值爲均值爲0,方差爲1帶入

得出機率是1%,能夠把原始假設拒絕掉

當基礎數據變小的時候(基礎數據變小,波動則明顯)機率會發生變化(變大),這樣得出結論則發生變化。

樣本量、閾值(轉化率標準差),決定假設機率的變化。

3.置信區間

它的做用是不輕易拒絕原假設,而是給一個可靠的範圍。通常來講用95%做爲可靠度。

在A&B測試中,咱們能夠定義爲,用戶購買轉化率,有95%的可能性是在23%~27%之間,另外5%是小几率了。

在實際業務中,當樣本量足夠時,轉化率的計算能夠越過Z檢驗的計算過程,直接看轉化結果,由於樣本量越大,對置信區間會越嚴格。

轉化率在數據類型上是0和1的集合。除此,還有數值型的計算,好比消費額度、消費頻次等。

A&B測試用於產品設計和運營是比較好的方法,對於數據分析來說,是一個很好的思惟。

返回總目錄

轉自:https://ask.hellobi.com/blog/cbdingchebao/11782

相關文章
相關標籤/搜索