前言:對於數據分析師來講,統計學是必不可少的基礎知識。不只工做中會常常運用其概念,且也幾乎是數據分析師工做的面試必考題(尤爲是校招以及轉行的朋友,當實戰經驗少的時侯會更關注基礎功底是否紮實)。因此我準備開始以較簡練的語言,輔以簡單易懂案例,總結一些統計學核心的知識點。咱們經常使用的ab實驗,其背後的原理就是統計學中的假設檢驗,今天咱們來詳細說說假設檢驗。
1、經常使用核心概念
什麼是假設檢驗:假設就是對從整體參數(均值、比例等)的具體數值所做的陳述,好比,我認爲配方一比配方二的效果要好。而假設檢驗就是先對整體的參數提出某種假設,而後利用樣本的信息判斷假設是否成立的過程,好比上面的假設信息我該接受仍是拒絕。
web
什麼是顯著性水平:顯著性水平是一個機率值,原假設爲真時,拒絕原假設的機率,表示爲α,常取值爲0.0五、0.0一、0.10。一個公司招聘,原本準備招聘100我的,公司但願只有5%的人是混水摸魚招聘進來,因此可能會有5我的混進來,所謂顯著性水平α,就是你容許有多少比例混水摸魚的能經過測試。面試
原假設與備擇假設:待檢驗的假設又叫原假設(零假設),通常表示爲H0,原假設通常表示二者沒有顯著性差別。與原假設進行對比的叫備擇假設,表示爲H1。通常在比較的時候,主要有等於、大於、小於。ide
檢驗統計量:即計算檢驗的統計量。根據給定的顯著性水平,查表得出相應的臨界值。再將檢驗統計量的值與該顯著性水平的臨界值進行比較,得出是否拒絕原假設的結論。測試
P值:是一個機率值,若是原假設爲真,p值是抽樣分佈中大於或小於樣本統計量的機率。左檢驗時,p值爲曲線上方小於等於檢驗統計量部分的面積。右檢驗時,p值爲曲線上方大於等於檢驗統計量部分的面積。spa
假設檢驗的兩種錯誤:類型 I 錯誤(棄真),如原假設爲真,但否認它,則會犯類型 I 錯誤。犯類型 I 錯誤的機率爲 α(即您爲假設檢驗設置的顯著性水平)。α 爲 0.05 代表,當您否認原假設時,您願意接受 5% 的犯錯機率。爲了下降此風險,必須使用較低的 α 值。可是,使用的α值越小,在差值確實存在時檢測到實際差值的可能性也越小。類型 II 錯誤(採僞),如原假設爲假,但沒法否認它,則會犯類型 II 錯誤。犯類型 II 錯誤的機率爲 β,β 依賴檢驗功效。能夠經過確保檢驗具備足夠大的功效來下降犯類型 II 錯誤所帶來的風險。方法是確保樣本數量足夠大,以便在差值確實存在時檢測到實際差值。設計
單雙測檢驗:當假設關鍵詞有不得少於/低於的時候用左側檢驗,好比燈泡的使用壽命不得少於/低於700小時時;當假設關鍵詞有不得多於/高於的時候用右側檢驗,好比次品率不得多於/高於5%時。雙側檢驗指按分佈兩端計算顯著性水平機率的檢驗,應用於理論上不能肯定兩個整體一個必定比另外一個大或小的假設檢驗。通常假設檢驗寫做H0:μ1=μ2。3d
檢驗結果:單側,若p值>α,不拒絕H0,若p值<α,拒絕H0;雙側,若p值>1/2α,不拒絕H0,若p值<1/2α,拒絕H0
blog
2、假設檢驗方法數據分析
假設檢驗方法:z檢驗,t檢驗,卡方檢驗(卡方本篇不詳述,應用較少)
it
2.1 Z檢驗
Z檢驗原理:當整體標準差已知,樣本量較大時用標準正態分佈的理論來推斷差別發生的機率,從而比較兩個平均數的差別是否顯著。若是檢驗一個樣本平均數與一個已知的整體平均數的差別是否顯著,其Z值計算公式爲:
若是檢驗來自兩個的兩組樣本平均數的差別性,從而判斷它們各自表明的整體的差別是否顯著,其Z值計算公式爲:
Z檢驗實例:
研究正常人與高血壓患者膽固醇含量,比較兩組血清膽固醇含量有無顯著差別。
正常人組數據:n1=506(樣本量) μ1=180.6(樣本均值) s1=34.2(標準差)
高血壓組數據:n2=142 μ2=223.6 s2=45.8
一、提出假設,規定適當檢驗統計量,肯定檢驗水平:
H0:μ1=μ2
H1:μ1≠μ2
α=0.05,樣本量較大,且檢驗來自兩組樣本平均數的差別性,故選擇z檢驗統計量
二、計算統計量z值
將已知數據帶入z檢驗公式,
計算假設檢驗統計量 z=10.4
α=0.05,雙側故 α/2=0.025,1-α=0.975 查表,確認臨界值爲1.96
三、肯定p值,作出推斷結論
10.4(z值)>1.96(臨界值),故p<0.05,按α=0.05水準拒絕H0,接受H1,能夠認爲正常人和高血壓患者的血清膽固醇含量有差別。
2.2 t檢驗
t檢驗:分爲單樣本的t檢驗、配對樣本均數t檢驗(本篇不詳細說)、兩獨立樣本均數t檢驗。t檢驗應用於兩組計量資料小樣本比較,樣本對整體有較好表明性,對比組間有較好組間均衡性,即隨機抽樣和隨機分組。且樣原本自正態分佈整體。單個樣本t檢驗適用於樣本均數與已知整體均數μ0的比較,目的是檢驗樣本均數所表明的整體均數μ是否與已知整體均數μ0有差異。應用於整體標準α未知的小樣本資料,且服從正態分佈。
單樣本t檢驗實例:
某地新生兒出生體重爲3.3kg,從該地難產兒中隨機抽取35名嬰兒,平均體重爲3.42kg,標準差爲0.4kg,問該地難產兒出生體重與新生兒體重是否不一樣?
一、提出假設,規定適當檢驗統計量,肯定檢驗水平:
H0:μ=μ0
H1:μ≠μ0
α=0.05 ,樣本均數與已知整體均數μ0的比較,因此選擇單樣本t檢驗
二、計算統計量z值
n=35 μ0=3.3 μ=3.42 s=0.4
自由度=n-1=34,α=0.05,雙側故 α/2=0.025,1-α=0.975,自由度34,查表得出臨界值爲2.032
三、肯定p值,作出推斷結論
由於1.77(z值)<2.032(臨界值),故p>0.05,按α=0.05水平,差異無統計學意義,不拒絕h0,不能認爲該地難產兒與新生兒體重有差別。
兩獨立樣本t檢驗(ab實驗背後原理):適用於徹底隨機設計的兩樣本均數的比較,其目的是檢驗兩樣本所來自整體的均數是否相等。兩獨立樣本t檢驗要求兩樣本所表明的整體服從正態分佈N(μ1,σ^2)和N(μ2,σ^2),且兩整體方差σ1^二、σ2^2相等,即方差齊性。若兩整體方差不等須要先進行變換。兩獨立樣本t檢驗的檢驗假設是兩整體均數相等,即H0:μ1=μ2,統計量計算公式爲:
兩獨立樣本t檢驗實例:
25例糖尿病患者隨機分紅兩組,甲單純藥物治療,乙採用藥物合併飲食治療,二月後測空腹血糖以下,問兩種療法血糖值是否相同?
數據:n1=12 s1=182.5 n2=13 s2=141
一、提出假設,規定適當檢驗統計量,肯定檢驗水平:
H0:μ1=μ2 H1:μ1≠μ2
α=0.05, 選用兩獨立樣本t檢驗方法
二、計算統計量z值
將數據帶入公式,計算得t=2.639
自由度=n1+n2-2=23 α=0.05,雙側故 α/2=0.025,1-α=0.975,查表得臨界值爲 t=2.069
三、肯定p值,作出推斷結論
由於2.639(t值)>2.069(臨界值) ,故 p<0.05 , 在0.05水準下,拒絕H0,接受H1,存在顯著性差別,故認爲兩種療法效果不一樣。
以上,但願對你們有所幫助。你們若是對假設檢驗部分有困惑的點,歡迎隨時與我交流。