一:背景api
這幾天從新複習了一下之前經典的假設檢驗方法。包括以前使用excel來作一些簡單的統計分析。.net
假設檢驗(hypothesis test)亦稱顯著性檢驗(significant test),是統計推斷的另外一重要內容,3d
其目的是比較整體參數之間有無差異。假設檢驗的實質是判斷觀察到的「差異」是由抽樣偏差引發仍是整體上的不一樣,excel
目的是評價兩種不一樣處理引發效應不一樣的證據有多強,這種證據的強度用機率P來度量和表示。對象
P值就是當原假設爲真時所獲得的樣本觀察結果或更極端結果出現的機率。blog
二:假設檢驗步驟get
假設任意給定兩組數據,好比從兩個樣本抽樣的一個特徵。產品
想知道這兩個樣本的分佈是否不一樣,有沒有差異。class
問題一般有兩種解法,一個是參數檢驗,一個非參數檢驗。test
若是數據的分佈比較符合某些正態分佈或經典三大分佈(t分佈,f分佈,卡方分佈)的條件,採用第一種辦法效果比較好,分爲如下幾個步驟
1.創建假設
2.求抽樣分佈
3.選擇顯著性水平和否認域
4.計算檢驗統計量
5.斷定
正態分佈,用以構建Z統計量,主要用來做爲如下幾種情形的檢驗分佈,
1:(單個整體參數)當整體方差已知,大樣本的狀況下,判斷樣本均值(比例)和整體均值(比例)是否有差別。例如已知一個城市2018年人均收入是1萬元,2019年隨機抽樣了100我的,計算均值爲10100元,問兩年的人均收入是否有顯著差別。
2:(單個整體參數)當整體方差已知,小樣本的狀況下,判斷樣本均值(比例)和整體均值(比例)是否有差別。
3:(兩個整體參數)當整體方差已知或未知,大樣本的狀況下,好比隨機抽100名18歲高中生,比較男女的身高是否有差別
T分佈,用以構建t統計量,又稱厚尾分佈
1:(單個整體參數)當整體方差未知,小樣本的狀況下,判斷樣本均值(比例)和整體均值(比例)是否有差別。
2:(兩個整體參數)當整體方差未知,小樣本的狀況下,好比隨機抽20名18歲高中生,比較男女的身高是否有差別
卡方分佈,用以構建x2統計量,
1:(單個整體參數)比較和整體方差是否存在差別,好比生產一種零件,要求偏差不超過1mm,隨機抽取了20個,分別進行測定,求卡方值作檢驗
2:擬合優度檢驗,比較兩個整體比例是否有顯著差別,具體參考問題3
3:獨立性檢驗,兩個分類變量之間是否存在聯繫,好比產品的質量與產地是否有關
F分佈,用以構建f統計量
1:(兩個整體參數)比較兩整體的方差是否相等,方差齊,能夠經過兩個方差之比等於1來進行,
若是不知足正態,獨立,方差齊等前提,也不知道分佈形式,能夠採用非參檢驗。
固然知足參數檢驗條件的兩組數據也可使用非參檢驗,可是效果不如參數檢驗好。
三:參數檢驗方法示例
1:T檢驗
經過兩個樣本之差的分佈去推斷,兩個樣本數據應知足正態分佈條件,方差齊,還要相互獨立,之因此叫t檢驗,是由於構建的統計量是t統計量,t統計量服從n1+n2-2個自由度的t分佈,
小樣本的狀況下(n<=30),比較兩個樣本的均值是否顯著差別。
原假設是沒有差別,P<0.05,拒絕原假設,說明有差別。若是經過Levene F方法檢驗方差不齊,則須要用校訂的t檢驗,或者用非參數方法處理。
excel (ttest),spss,R (t.test())均可以分析。
前提要先作正態性檢驗,但這一個問題能夠有不少方法來處理,一個是畫直方圖,pp,qq,只是定性分析,還有其餘的方法,像R裏的shapiro.test,ks檢驗用的比較多。
補充說明:https://www.jianshu.com/p/c2e8bb32eb8d
Levene's Test 檢驗,用於檢驗兩組及兩組以上獨立樣本的方差是否相等。要求樣本爲隨機樣本且相互獨立。
Levene檢驗 與Bartlette檢驗(巴特萊多)的區別:
1)對於正態分佈的樣本,Bartlette檢驗極其靈敏,可是對於非正態分佈的樣本,檢驗很是不許確;
2)Levene檢驗是一種更爲穩健的檢驗方法,既可用於正態分佈的樣本,也可用於非正態分佈的樣本,同時對比較的各組樣本量能夠相等或不等;
3)二者的檢驗原理不一樣,Bartlette檢驗是對原始數據檢驗其方差是否齊性,而Levene檢驗是檢驗組間殘差是否齊性,並且通常認爲要求殘差的方差齊性,
因此通常統計軟件使用Levene檢驗(同時,根據由原理也能夠解釋1和2,Levene檢驗只針對殘差,因此與分佈無關,而Bartlette檢驗針對原始數據,因此符合正態分佈與非正態分佈差異較大);
所以,Levene檢驗被普遍地公認爲是標準的方差齊性檢驗的方法。
2:方差分析(F 檢驗)
t檢驗是用來比較樣本均值的,f檢驗是用來比叫方差的,又分單因素,雙因素,多因素,就是對一種目標,有一個變量或多個變量影響這該目標,好比畝產,有品種,肥力,灌溉等因素,哪一個因素是主要影響因素呢?
使用方差分析須要知足(正態,方差齊)
經過方差分析,找到總體方差的主要來源,加入有3個因素,通常軟件會自動處理單因素,雙因素聯合效應,三因素聯合效應。
原假設是組間方差(同因素不一樣處理水平下)沒差別,若是P<0.05,拒絕原假設,說明該因素的方差佔了大部分總體方差來源,是顯著影響因素。
若是一個因素種,有多個處理水平,也就是多重比較時,spss裏使用tukey和lsd這兩種比較檢驗方法較爲經常使用,若是方差不齊,有Tamhane’s T2法選項處理。
3:卡方檢驗
用於列聯表分析,當變量是一個分類變量時,統計的是頻數,好比贊同的人數,一級,二級這種。
卡方檢驗能夠用於正態性檢驗,獨立性檢驗(好比說牛奶的質量是否與產地有關), 比較分類變量比例之間是否有顯著差別(好比兩個城市之間不一樣社會階層的收入水平佔比是否有差別)。
自由度是(R-1)*(C-1)
四:非參數檢驗方法示例
若是將數據取對數,或者開根號等處理後仍然不知足正態分佈的前提條件,能夠採用非參數的方法分析,能夠參考這個link:https://blog.csdn.net/m0_37228052/article/details/89639426
非參數檢驗主要不是用變量的值,二是用秩做爲分析對象。
spss只要勾上四個選項,能夠同時分析出結果。
1: U檢驗
要知足四個假設,1.數據中有一個因變量,且因變量爲連續變量或等級變量。
例如:連續變量——智力得分、考試分數、體重;等級變量——滿意程度(包括很是不滿意、不滿意、滿意、很是滿意)。
2.數據中有一個自變量,且自變量爲二分類的獨立變量。例如:性別分組——男性組、女性組;生活習慣——吸菸組、非吸菸組。
3.觀察值之間相互獨立,即自變量的兩個分組中的研究個體不能相關。
研究數據不符合此項條件,例如測量同一組患者治療前與治療後的血生化指標,這樣數據屬於配對樣本數據,應選用Wilcoxon符號秩和檢驗。
例如:對比兩個班級的學生的考試分數;對比患者與健康者的血生化指標。
4.自變量中兩組樣本的分佈一致。
2:KS檢驗:不只能夠檢驗單個整體是否服從某一理論分佈,還能檢驗兩個整體分佈是否存在顯著差別。
3:Moses極端反應檢驗
4:W檢驗