注:終於寫到最激動人心的部分了。假設檢驗應該是統計學中應用最普遍的數據分析方法,其中像"P值"、"t檢驗"、"F檢驗"這些如雷貫耳的名詞都來自假設檢驗這一部分。我本身剛開進入生物信息學領域,用的最多的就是"利用t檢驗來判斷某個基因在實驗組和對照組中表達量的差別是否顯著"。此外,對"P值"真正含義的探究也開啓了自學機率論與數理統計之路。所以不管是應用價值,仍是對我學習統計學的影響,這部分的內容都是意義非凡的。html
下面是兩篇相關的文章,分別寫於2011年和2016年,僅供參考:ide
- 生物學中P值的意義,2011函數
- 顯著性檢驗——費舍爾與「女士品茶」,2016學習
從樣本到整體的推理被稱爲統計推斷。應用統計學家費舍爾認爲經常使用的統計推斷有三種基本形式:抽樣分佈、參數估計和假設檢驗。spa
對於假設檢驗,從字面意思來看,"假設"這個詞在這裏就是一個其正確與否有待經過樣本去判斷的陳述。假設是對一個或多個整體的機率分佈或參數的假設;在作判斷時掌握的信息是從整體中抽取的樣本。在數理統計中,通用"檢驗"一詞來代替上文彙總的"判斷"。所以假設檢驗就是根據樣本的信息檢驗對相關整體的某個假設是否正確。3d
根據整體分佈是否已知以及檢驗的內容,能夠將假設檢驗分爲如下兩類:orm
假設檢驗的基本理論依據:實際推斷原理,即「小几率原理」.htm
根據樣本對原假設進行判斷,有兩種方法,臨界值法和P值法。臨界值法是根據顯著性水平和統計量的分佈肯定一個檢驗統計量的臨界值,而後根據檢驗統計量的值與臨界值之間的關係來作決定。 在引例中,臨界值就是下面$2.1$節中的待定常數C,檢驗統計量就是樣本均值$\bar{X}$.blog
體重指數BMI是目前國際上經常使用的衡量人體胖瘦程度以及是否健康的一個標準,專家指出,健康成年人的BMI取值應該在18.55-24.99之間。某種減肥藥廣告宣傳,連續使用該種減肥藥一個星期即可以達到減肥的效果。爲了檢驗其說法是否可靠,隨機抽取9位實驗者(要求BMI指數超過2五、年齡在20-25歲的女生),先讓每位女生記錄沒有服用減肥藥以前的體重,而後讓每位女生服用該減肥藥,服藥期間,要求每位女生保持正常的飲食習慣,連續服用該減肥藥1周後,再次記錄各自的體重。測得服用減肥藥先後的體重差值(服藥前體重 - 服藥一週後體重)(單位:kg):事件
$$1.5, 0.6, -0.3, 1.1, -0.8, 0, 2.2, -1.0, 1.4$$
圖1:BMI計算公式
問題:根據目前的樣本資料可否認爲該減肥藥廣告中的宣稱是可靠的?
這裏提出的問題就是一個假設檢驗的問題,包括如下要素:
1). 咱們有一個整體,即所考察的BMI指數超過2五、年齡在20-25歲的女生服用減肥藥一週先後的體重差(這是理想整體,雖然沒有在全部符合條件的人羣中作實驗),且假設該整體服從正態分佈$X \sim N(\mu, \sigma^2)$,爲了解題方便進一步假設方差$\sigma^2 = 0.36$. 此時整體的分佈還有未知參數$\mu$.
2). 從該整體中中抽出的9個樣本,即9位參與試驗的人.
3). 有一個命題,其正確與否徹底取決於未知參數$\mu$的值. $\mu$的取值能夠分爲三個部分,表示不一樣的實驗效果:$\mu = 0$時表示體重沒有變化;$\mu > 0$表示體重降低了;$\mu < 0$表示體重增長了. 在作判斷時,只有$\mu > 0$的狀況(甚至更嚴格)纔有可能支持"減肥藥有效"這個結論.
下面是進行假設檢驗的通常步驟。
在做假設檢驗以前,必須肯定原假設(或零假設,$H_0$)和備擇假設(或對立假設,$H_1$)。這兩個假設一般是徹底對立的,例如藥物有效與無效,基因表達量有差別與沒有差別等。決定誰做原假設,依賴於立場、慣例和方便性。選擇零假設的基本原則是:保護零假設,儘可能維持現狀或取簡單假設。例如篩選差別基因,原假設是兩組基因沒有差別,只有在具備了充足的證據,證實兩組基因是有差別的,才能拒絕原假設,說明它們是有差別的。
對於引例中的問題來講,站在消費者的角度,須要嚴格看待減肥藥的效果,所以原假設能夠設定爲該藥物沒有做用。那麼根據題設,轉化成數學語言爲:
服用減肥藥先後體重差值$X \sim N(\mu, \sigma^2)$,方差$\sigma^2 = 0.36$
檢驗假設:$H_0: \mu = 0, H_1: \mu > 0$
由於$\bar{X}$是$\mu$的無偏估計,$\bar{X}$的取值大小反映了$\mu$的取值大小,當原假設成立時,$\bar{X}$取值應偏小(這裏X表示體重差,體重差越小表示該減肥藥的效果越不明顯)。所以,
當$\bar{X} \ge C$時,拒絕原假設$H_0$,
當$\bar{X} < C$時,接受原假設$H_0$,
其中C是待定常數——檢驗統計量的臨界值。
在作統計分析時,不少步驟都與各類不一樣的分佈有關,例如表明樣本數值特徵的統計量;用來作參數估計的樞軸量(包含一個未知量的統計量);還有這裏出現的用於假設檢驗的檢驗統計量。
若是統計量$T = T(X_1, ..., X_n)$的取值大小與原假設$H_0$是否成立有密切聯繫,就能夠將其稱爲對應假設問題的檢驗統計量,而對應於拒絕原假設$H_0$時,樣本值的範圍稱爲拒絕域,記爲$W$,其補集$\bar{W}$稱爲接受域。肯定一個檢驗,等價於指定其接受域或否認域。
引例中的檢驗統計量爲$\bar{X}$,拒絕域爲
$$W = \{(X_1, ..., X_n): \bar{X} \ge C\}$$
C如何選擇,是問題的關鍵。
首先要理解C點的含義:C值取定後就是一個固定的值,C點將隨機變量的整個取值範圍$(0,+\infty)$分紅了兩個部分,左邊爲接受域,右邊爲拒絕域(這裏衡量的是體重差,拒絕域在右邊,沒有考慮體重增長的狀況)。
因此當樣本均值$\bar{X} < C$時,就落到了接受域(也就是$\bar{X}$與0接近到了必定程度,相似於樣本均值落到了0的鄰域),就能夠認爲$\bar{X}$與0沒有差異。又由於$\bar{X}$是整體均值$\mu$的無偏估計,所以能夠認爲整體的均值$\mu=0$,從而接受原假設$H_0$。當樣本均值$\bar{X} > C$時,就落到了拒絕域(樣本均值與0的差異很是大),因此就拒絕了原假設。
在檢驗一個假設$H_0$時,有可能犯如下兩類錯誤之一:
1). $H_0$正確,但被否認了,即丟棄了真假設(棄真),也叫做"第一類錯誤"或"I型錯誤";
2). $H_0$不正確,但被接受了,即接受了假的假設(取僞),也叫做"第二類錯誤"或"II型錯誤"
在引例中,若是犯了第一類錯誤,就會將原本沒有減肥效果的減肥藥當作有減肥效果,從而對消費者的利益形成比較大的損害;若是犯了第二類錯誤,就會將原本有減肥效果的藥物當作沒有減肥效果,這會讓製藥公司蒙受損失。再舉一個例子:某流行病的發病率爲0.1%,因爲發病率比較低,能夠將"來檢測的人沒有患病"做爲原假設$H_0$. 此時若是犯了第一類錯誤,就會將健康人診斷爲病人從而開具錯誤的處方,一般也將這種狀況稱做假陽性;若是犯了第二類錯誤,就會將病人診斷爲健康人從而可能使病人錯過最佳治療時間,且有可能傳染給其餘人,一般也將這種狀況稱爲假陰性.
下面是一張廣爲流傳的圖,用來講明"假陽性"和"假陰性",其原假設$H_0$是"沒有懷孕":
圖2:假陽性&假陰性
咱們但願在檢驗一個假設$H_0$時,犯兩類錯誤的機率都儘可能小。可是不免會有失誤的時候,並且這兩類錯誤是相互對立的:對於引例來講,假如檢驗的條件很是嚴格(例如規定必須每一個人的體重都降低10kg),則犯第一類錯誤的機率就會比較小,可是大大提升了假陰性的機率。對於引例來講,犯第一類錯誤的後果顯然比犯第二類錯誤的後果嚴重,所以檢驗的標準須要偏嚴格一些。
在區間估計中,也存在相似的問題:想要增大可靠性即置信係數,就會使區間長度變大而下降精度,反之亦然. 在區間估計中,是用"保一望二"的原則來解決這個問題的,即便置信係數達到指定值,在這個限制之下使區間精度儘量大. 在假設檢驗中也是這樣辦:先保證第一類錯誤的機率不超過某指定值$\alpha$($\alpha$一般較小,最經常使用的是0.05和0.01,有時也取0.001, 0.1或0.2等值),在這個限制下,使第二類錯誤的機率儘量小. 以上原則也被稱爲"奈曼-皮爾遜原則".
繼續分析引例中的問題,取顯著性水平$\alpha = 0.05$,
當原假設$H_0$成立時 $\Rightarrow \frac{\bar{X}}{0.6 / \sqrt{9}} \sim N(0, 1)$,(統計量的分佈)
此時,顯著性水平就是犯第一類錯誤的機率的上限:
$P\{\bar{X} \ge C | \mu=0\} = P\{\frac{\bar{X}}{\sigma/\sqrt{n}} \ge \frac{C}{\sigma/\sqrt{n}} | \mu=0\}$
$= 1 - \Phi(\frac{C}{\sigma/\sqrt{n}}) \le \alpha = 0.05.$, $(0.05 = \Phi(-z_{0.05}))$. $1 - \Phi(x)$越小,$x$越靠近分佈的右端,值越大
$\Rightarrow \frac{C}{0.6/\sqrt{9}} \ge z_{0.05} = 1.645. \Rightarrow C \ge 0.329.$
其中,$\Phi(x)$表示區間$(-\infty, x)$上x軸與機率密度函數圍成的面積;$z_{\alpha}$表示機率密度函數的上$\alpha$分位點;檢驗統計量是樣本的均值,標準化後服從標準正態分佈(整體方差已知).
根據樣本信息得,$\bar{X} = 0.522 > 0.329$.
當原假設$H_0$成立時,樣本落在拒絕域的機率不超過0.05,這是一個小几率事件(小几率事件發生了)。
根據實際推斷原理,有充分的理由拒絕原假設,認爲廠家的宣傳是可靠的.
同理,若$\alpha = 0.01$,能夠計算獲得$ W = \{ \bar{X} \ge 0.465\}$,此時條件變得更加嚴格,仍然能夠拒絕原假設.
P值法的前兩步與臨界值法相同,下面是"P值法"的第三步和第四步. 因爲在P值法中,只與顯著性水平$\alpha$進行比較,也就是隻對第一類錯誤進行了限制,所以也被稱爲"顯著性檢驗"(Significance Test).
P值的定義:當原假設$H_0$成立時,檢驗統計量取比觀察到的結果更爲極端的數值的機率。(若是比觀察結果更極端的事件發生的機率很是小,那麼觀察結果自己發生的機率也會很是小!)
$$P_{\_} = P\{\bar{X} \ge \bar{x} = 0.522 | \mu = 0\} = 1 - \Phi(\frac{0.522}{0.6/\sqrt{9}}) = 0.0045 < \alpha = 0.05$$
按照P值的定義,如今觀察到的結果爲$\bar{x} = 0.522$,觀察到比$\bar{x}$更大的結果的機率爲0.0045. 這個機率很是小,小到幾乎不可能發生.
那麼此時的觀察結果自己$\bar{x} = 0.522$的機率也很是小,接近0.0045,也就是說在原假設"減肥藥無效"成立的狀況下,小几率事件發生了,所以要拒絕原假設.
帶機率性質的反證法:
該方法有點像"反證法",可是又有不一樣之處,所以被稱爲"帶機率性質的反證法". 通常的反證法要求在原假設成立的條件下導出的結論是絕對成立的,若是事實與之矛盾,則徹底絕對地否認原假設.
機率反證法的邏輯是:若是小几率事件在一次試驗中發生,咱們就以很大的把握拒絕原假設.
P_值與顯著性水平$\alpha$的關係:
1). 若$P_{\_} \le \alpha$,等價於樣本落在拒絕域內,所以,拒絕原假設,稱檢驗結果在水平$\alpha$下是統計顯著的;
2). 若$P_{\_} > \alpha$,等價於樣本沒有落在拒絕域內,所以,不拒絕(接受)原假設,稱檢驗結果在水平$\alpha$下統計不顯著.
https://marginalrevolution.com/marginalrevolution/2014/05/type-i-and-type-ii-errors-simplified.html
https://allizhealth.com/wp-content/uploads/2016/07/BMI-Formula-1.jpg
http://www.360doc.com/content/17/0904/19/45877835_684588486.shtml
http://staff.ustc.edu.cn/~zwp/teach/Prob-Stat/Lec16_slides.pdf
《機率論與數量統計》,陳希孺,中國科學技術大學出版社,2009年2月初版
中國大學MOOC:浙江大學&哈爾濱工業大學,機率論與數理統計