Permutation Test 置換檢驗

顯著性檢驗一般能夠告訴咱們一個觀測值是不是有效的,例如檢測兩組樣本均值差別的假設檢驗能夠告訴咱們這兩組樣本的均值是否相等(或者那個均值更大)。咱們在實驗中常常會由於各類問題(時間、經費、人力、物力)獲得一些小樣本結果,若是咱們想知道這些小樣本結果的整體是什麼樣子的,就須要用到置換檢驗。html

Permutation test 置換檢驗是Fisher於20世紀30年代提出的一種基於大量計算(computationally intensive),利用樣本數據的全(或隨機)排列,進行統計推斷的方法,因其對整體分佈自由,應用較爲普遍,特別適用於整體分佈未知的小樣本資料,以及某些難以用常規方法分析資料的假設檢驗問題。在具體使用上它和Bootstrap Methods相似,經過對樣本進行順序上的置換,從新計算統計檢驗量,構造經驗分佈,而後在此基礎上求出P-value進行推斷。spa

下面經過一個簡單例子來介紹Permutation test的思想。設計

假設咱們設計了一個實驗來驗證加入某種生長素後擬南芥的側根數量會明顯增長。A組是加入某種生長素後,擬南芥的側根數量;B是不加生長素時,擬南芥的側根數量(均爲假定值)。htm

A組側根數量(共12個數據):24 43 58 67 61 44 67 49 59 52 62 50blog

B組側根數量(共16個數據):42 43 65 26 33 41 19 54 42 20 17 60 37 42 55 28ip

咱們來用假設檢驗的方法來判斷生長素是否起做用。咱們的零假設爲:加入的生長素不會促進擬南芥的根系發育。在這個檢驗中,若零假設成立,那麼A組數據的分佈和B組數據的分佈是同樣的,也就是服從同個分佈。get

接下來構造檢驗統計量——A組側根數目的均值同B組側根數目的均值之差。數學

statistic:= mean(Xa)-mean(Xb)io

對於觀測值有 Sobs:=mean(Xa)-mean(Xb)=(24+43+58+67+61+44+67+49+59+52+62+50)/12-(42+43+65+26+33+41+19+54+42+20+17+60+37+42+55+28)/16=14class

咱們能夠經過Sobs在置換分佈(permutation distribution)中的位置來獲得它的P-value。

Permutation test的具體步驟是:

1.將A、B兩組數據合併到一個集合中,從中挑選出12個做爲A組的數據(X'a),剩下的做爲B組的數據(X'b)。

Gourp:=24 43 58 67 61 44 67 49 59 52 62 50 42 43 65 26 33 41 19 54 42 20 17 60 37 42 55 28

挑選出 X'a:=43 17 44 62 60 26 28 61 50 43 33 19

X'b:=55 41 42 65 59 24 54 52 42 49 37 67 67 20 42 58

2.計算並記錄第一步中A組同B組的均值之差。Sper:=mean(X'a)-mean(X'b)= -7.875

3.對前兩步重複999次(重複次數越多,獲得的背景分佈越」穩定「)

這樣咱們獲得有999個置換排列求得的999個Sper結果,這999個Sper結果能表明擬南芥小樣本實驗的抽樣整體狀況。

permutation test

permutation test

如上圖所示,咱們的觀測值 Sobs=14 在抽樣整體右尾附近,說明在零假設條件下這個數值是不多出現的。在permutation獲得的抽樣整體中大於14的數值有9個,因此估計的P-value是9/999=0.01

最後還能夠進一步精確P-value結果(作一個抽樣整體校訂),在抽樣整體中加入一個遠大於觀測值 Sobs=14的樣本,最終的P-value=(9+1)/(999+1)=0.01。(爲何這樣作是一個校訂呢?本身思考:))

結果代表咱們的原假設不成立,加入生長素起到了促使擬南芥的根系發育的做用。

參考資料:

1. http://bcs.whfreeman.com/ips5e/content/cat_080/pdf/moore14.pdf

2. http://jpkc.njmu.edu.cn/course/tongjixue/file/jxzy/tjjz02.htm

3. http://www.r-bloggers.com/lang/chinese/541

 

來源:https://www.plob.org/article/3176.html

 

大數定理:

當樣本量足夠多時,樣本發生的頻率近似於機率。

 

中心極限定理:  

中心極限定理以嚴格的數學形式闡明瞭在大樣本條件下,不論整體的分佈如何,樣本的均值老是近似地服從正態分佈。若是一個隨機變量可以分解爲獨立同分布的隨機變量序列之和,則能夠直接利用中心極限定理進行解決。總之,恰當地使用中心極限定理解決實際問題有着極其重要意義。

 

假設檢驗:檢驗量:樣本均值的分佈;樣本均值的比較。

 

置換檢驗(非參數檢驗)

當樣本量不夠大,樣本分佈未知的狀況下;用置換檢驗模擬出樣本均值分佈,而後再進行比較

in detials:

兩組數據:A:樣本量n;B:樣本量m,整體樣本數量:n+m

則從n+m個樣本中隨機抽取n個值,計算出樣本均值,而後重複此過程i次(i=1000),獲得樣本均值的分佈狀況,而後將A樣本均值與獲得的分佈進行比較。則能夠進行假設檢驗。

 

從n+m個樣本中隨機抽n個的爲A,剩下m爲B,計算兩組差別,重複次過程i次,獲得差別的分佈狀況,將實際差別與分佈狀況進行比較。

 

attention:模擬數據,想法與置換檢驗有類似點。去除掉混淆因素。

 https://en.wikipedia.org/wiki/Resampling_(statistics)

相關文章
相關標籤/搜索