機率統計23——假設檢驗理論（2）

時間 2020-04-06

標籤機率統計假設檢驗理論简体版

原文原文鏈接

假設檢驗其實是用反證法作出非對即錯的判斷：先假定原假設是對的，而後將抽樣數據代入相應的分佈中去驗證，觀察原假設的數值是落在接受域仍是拒絕域，由此作出是接受仍是拒絕原假設的判斷。微信

值得注意的是，不一樣於以往嚴格的數學證實，假設檢驗是創建在小几率事件原理的基礎之上。因爲小几率事件也有可能發生，所以並不能百分之百肯定原假設必定不成立，也就是說，原假設也有判斷錯誤的時候。學習

兩種錯誤類型

假設檢驗有兩種判斷錯誤的類型，統計學家給出了專業的名稱：第一類錯誤和第二類錯誤。spa

第一類錯誤（false reject）：錯誤地拒絕，H₀是對的，卻拒絕了它。也就是說，計算結果落在拒絕域，但真實結果是在接受域。blog

第二類錯誤（false accept）：錯誤地接受，H₀是錯的，卻接受了它。也就是說，計算結果落在接受域，但真實結果是在拒絕域。事件

第一類錯誤也叫Ⅰ 型錯誤或棄真錯誤，第二類錯誤也叫Ⅱ 型錯誤或存僞錯誤。我以爲仍是忘記這些文縐縐名稱，記住false reject和false accept便可，畢竟這兩個英文短語更直白，更容易理解。數學

假設檢驗的理想狀況是能過作出與實際相符的正確斷言，但因爲抽樣數據的隨機性，根據樣本計算的統計量必然會與總體的真實數值存在差別，這種差別可能致使出現四種判斷結果：產品

錯誤的機率

既然假設檢驗沒法保證百分之百有效，那麼咱們就須要研究兩類錯誤出現的機率，由此將假設檢驗的功效數值化。基礎

先來看第一類錯誤。原理

第一類錯誤是在H₀正確的時候錯誤地卻拒絕了它，這就意味着咱們的判斷結果落在了拒絕域內：二維碼

結果落在拒絕域內的機率與顯著性水平一致，所以α的數值決定了出現第一類錯誤機率：

隨着α的減少，第一類錯誤出現的機率也隨之減少。當α=0時，第一類錯誤徹底消失，也就是永遠不會拒絕H₀，這有點像過去的「守舊派」對於「法先王」的絕對擁護，不管時代怎麼進步，「法先王」都必須服從，任何改革都視爲大逆不道。

能夠看出，因爲α的值很小，因此犯第一類錯誤的概率也很小。

再來看第二類錯誤。

第二類錯誤是在H₀錯誤的時候接受了它，一個本應落在拒絕域內的點卻落在了接受域內：

咱們用β表示第二類錯誤出現的機率，只要α肯定了，β也就肯定了。一個草率的判斷是β=1-α，按照這種計算方式，β=0.95，這意味着第二類錯誤出現的機率高達95%！若是這樣，那麼假設檢驗還有什麼用？

實際上β的計算比α可貴多。

咱們延用產品元件的故事。μ₀是改善前整體的均值，μ₁是改善後整體的均值，改善先後的標準差一致，都是σ=6。

原假設H₀：改善前與改善後是同一個正態分佈，μ₀=μ₁=600。

備擇假設H₁：改善前與改善後是不一樣的正態分佈，μ₀=600< μ₁=603。

公司用新技術製造了大量元件，從中屢次抽取容量是m（m≥30）的樣本進行檢驗。根據中心極限定理，樣本均值的分佈服從均值爲整體均值，方差爲整體方差1/m的正態分佈：

對樣本均值進行標準化處理：

使用0.05顯著性水平，在標準正態分佈下，查表可知臨界值是1.645。

當Z₀ > 1.645時，將拒絕H₀假設。

再來看均值的逆運算：

也就是說，若是抽樣的均值大於601.802，就應該拒絕相信H₀。

如今能夠計算出標準正態分佈下β區域的臨界值：

結論是，若是改善後的功率均值是603，那麼以此爲條件，犯第二類錯誤的機率是β=0.137。經過β的計算過程能夠看出，只有當H₁假設是一個固定的值時，才能計算出β。若是H₁假設不是固定，好比只給出了μ₁ > 603，那麼將沒法根據①計算出z₁，也就沒法進一步求得β。

一個常見的問題是，既然一開始就知道了H₀和H₁的均值和方差，爲何還要使用標準化處理？直接計算臨界值豈不是更簡單？

咱們的確能夠直接經過計算機解求得X~(μ₀, σ²)時的臨界值，但這是整體分佈下的臨界值，而咱們的假設檢驗是基於抽樣，並不是整體，此時用到的理論是中心極限定理，所以才大費周章地使用標準化形態。

　　出處：微信公衆號 "我是8位的"

　　本文以學習、研究和分享爲主，如需轉載，請聯繫本人，標明做者和出處，非商業用途！

　　掃描二維碼關注做者公衆號「我是8位的」

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。