【數理統計基礎】 04 - 假設檢驗

  參數估計(尤爲點估計)是數理統計中的基本問題,在此基礎上還須要有進一步的應用,其中比較常見就是問題就是所謂「假設檢驗」。具體來講,經過樣本能夠知道原分佈的一些信息,以後能夠利用這些信息進行一些決策,而其中一類決策依賴於對分佈(參數)的硬性「假設」。假設檢驗問題很是廣泛,所以它和參數估計並稱爲數理統計的兩大問題。但這裏我仍是想強調,假設檢驗問題自己就是對參數估計的應用,在強調它們的差別的同時,也要注意二者之間的聯繫。函數

1. 參數檢驗

1.1 貝葉斯方法

  關於參數的假設通常是關於參數的(不)等式\(H_0\)(有時也把符合條件的全體參數記做\(H_0\)),它被稱爲統計假設。相應地,其逆條件被記做\(H_1\),它被稱爲對立假設,這時的原條件也可稱爲原假設。爲了判斷假設是否成立,須要從樣本(統計量)中獲取信息。但要注意,機率模型中能獲得的僅有機率信息,在決策模型中還必須有個獎懲函數,獎懲和機率相結合才能做出符合實際的決策(這是我捏造的詞,高等數理統計中會有完整的理論體系,這裏不討論)。學習

  初等教材上不會強調獎懲信息在模型的中的地位,這會致使決策的「惟機率論」錯誤。咱們屢次強調,機率統計只負責其自身邏輯,實際問題中並不只是統計模型,還須要看清問題的所有。獎懲信息的制定與具體問題有關,可能另有理論支持,也可能只需經驗值或粗略設定,但這已經和機率統計無關。故下面的論述中,我只是會不斷提醒,但不能深刻討論如何制定獎懲信息。設計

  咱們要面對的假設通常是\(\theta=\theta_0,\theta>\theta_0,\theta\in[\theta_1,\theta_2]\)之類的(不)等式,爲了驗證這個假設是否成立,須要制定一個只與樣本有關的斷定準則\(\varPsi(X_1,\cdots,X_n)\)。它通常也是一個(不)等式,理論上這個準則中應當含有獎懲信息,而這個斷定過程被稱爲假設檢驗blog

  這裏先用貝葉斯方法來講明全部概念。前面已經知道,貝葉斯方法給出參數的所有已知信息,它以統一而簡潔的形式給出了參數的分佈。在獲得樣本信息後,經過固定的計算便獲得了參數\(\theta\)的分佈\(p(x)\)。爲了檢驗假設\(H_0\),直覺上選擇的準則\(\varPsi\)應當是:\(p(x)\)在\(H_0\)上的積分大於\(1/2\) 。對於\(\theta=\theta_0\)這樣的假設,則應當改寫成適當的區間\(\theta\in[\theta_0-\varepsilon,\theta_0+\varepsilon]\),這樣才更符合實際。排序

  但這種不帶獎懲信息的判斷準則\(\varPsi\)在實際中很難使用,還須要根據狀況選定一個獎懲函數\(h(\theta)\),以式(1)做爲假設成立的判斷準則。獎懲函數的選擇必定是根據現實需求的,若是更但願知足\(H_0\)的參數不被淘汰,則\(p(\theta)\)在\(H_0\)上選取偏大的獎勵;若是更但願知足\(H_1\)的參數不被選中,則\(p(\theta)\)在\(H_1\)上選取偏大的懲罰(負值)。而對\(\theta=\theta_0\)這樣的假設,只需在\(\theta_0\)周圍設定適當的獎勵便可。回過頭去看,直覺上的\(1/2\)準則其實就是取式(2)的獎懲函數。事件

\[\varPsi:\;\int h(\theta)p(\theta)\,\text{d}\theta>0\tag{1}\]數學

\[h(\theta)=\left\{\begin{matrix}1,&\theta\in H_0\\-1,&\theta\in H_1\end{matrix}\right.\tag{2}\]it

  最後來分析一下正態分佈\(N(\mu,\sigma)\)(\(\mu,\sigma\)均未知)中\(\mu\)的後驗分佈,先驗分佈取廣義密度函數\(f(\mu,\sigma)=\sigma^{-1}\)(均值取均分、方差取\(\sigma^{-1}\))。利用貝葉斯法計算\(\mu\)的後驗分佈(計算過程當中只需關注變量部分,證實細節請參考教材),則能夠獲得式(3)的結論,它和點估計中的結論殊路同歸,但本質意義不一樣。基礎

\[\dfrac{\sqrt{n}(\mu-\bar{X})}{S}\;\sim\;t_{n-1}\tag{3}\]變量

1.2 功效函數

  鑑於貝葉斯方法的故有缺陷(先驗機率難以肯定),咱們仍是要從直觀的角度從新分析一遍假設檢驗的問題,上面提到的大部分概念和思想仍然有用。如今不能再把參數\(\theta\)當作一個隨機變量,但仍然能夠在每個\(\theta\)下來評估檢驗\(\varPsi\)。具體來講,對於事先制定的檢驗\(\varPsi\),能夠計算出在不一樣\(\theta\)下檢驗爲否認的機率\(\beta_{\varPsi}(\theta)\),它被稱爲功效函數。若是檢驗\(\varPsi\)使得功效函數知足式(4),它便稱爲水平\(\alpha\)的檢驗

\[\beta_{\varPsi}(\theta)\geqslant\alpha,\;\;(\theta\in H_0)\tag{4}\]

  對於分析問題而言,功效函數的做用和後驗機率是同樣的,不一樣的是,它不依賴於先驗機率。有兩點須要說明,一個是功效函數爲何採用的是否認的機率?我我的以爲仍是確定的機率更方便使用,也許是爲了能直接查表吧。另外一個是教材中一樣沒有引入獎懲函數,而是默認爲一些經常使用場景(檢驗水平的概念就是隻強調\(H_0\)的接收率),我以爲會形成學習者的困惑。帶着獎懲函數的概念,教材上一些策略的描述也許會更加清晰。

  下面從最簡單的場景討論起,以此體驗以上概念的含義,以及檢驗的具體方法。首先對正態分佈\(N(\mu,\sigma^2)\),假定\(\sigma\)已知,要想對\(\mu\geqslant\mu_0\)進行檢驗。最容易想到的檢驗方法天然是當\(\bar{X}\geqslant C\)時接受假設,其中常數\(C\)待定。先來計算檢驗的功效函數,前面已知\(\bar{X}\)知足分佈\(N(\mu,\sigma^2/n)\),功效函數既是\(\bar{X}<C\)的機率。

  在這裏咱們再次碰到不等式的機率問題,天然地聯想到上篇的樞軸變量法。不可貴到功效函數爲\(\varPhi(\sqrt{n}(C-\mu)/\sigma)\),能夠畫出它的圖像大體以下。爲了獲得檢驗水平\(\alpha\),只需\(C\leqslant\mu_0-\sigma u(\alpha)/\sqrt{n}\),最終獲得式(5)的檢驗。但從圖中看出,在保證檢驗水平\(\alpha\)的條件下,要使得\(H_1\)的功效函數(一致地)足夠大是不可能的,尤爲在臨界點\(\mu_0\)處。因此原假設和對立假設都達到必定水平的檢驗每每是不存在的,這就必須根據實際問題進行取捨,粗略的獎懲函數是必須的。

\[\varPsi:\;\dfrac{\sqrt{n}(\bar{X}-\mu_0)}{\sigma}\geqslant -u(\alpha)\tag{5}\]

  以上咱們給出了尋找檢驗方法的步驟:先根據假設的特色肯定檢驗的大體形式(帶參數),而後算出功效函數,最後肯定參數以知足檢驗水平。有時這個過程當中的計算會比較繁瑣,但式(5)能夠給咱們一些啓發,它在\(\mu=\mu_0\)時取等號且有很直觀的意義。先用樞軸變量直接在臨界點找到知足精度的等式,而後根據檢驗的大體形式把等式改成不等式,最後再回頭驗證功效函數的局部單調性。當\(\sigma\)未知時,按照這個思路只需把式(5)中的\(u(\alpha)\)換成\(t_n(\alpha)\)便可,但還要注意證實功效函數的單調性。

  對於假設\(\mu\leqslant\mu_0\)和\(\mu=\mu_0\),也有相似的結論。關於正態分佈,比較常見的假設還有兩個分佈均值的比較\(\mu_1-\mu_2\geqslant 0\),以及不太經常使用的方差假設,包括單分佈的方差假設\(\sigma^2\geqslant \sigma_0^2\),和兩個分佈方差比的假設\(\sigma_1^2/\sigma_2^2\geqslant c\)。關於它們的樞軸變量都已經在上一篇介紹過,請自行寫出檢驗方法和功效函數。

1.3 特殊分佈檢驗

  如今再來聊聊正態分佈以外的常見分佈,它們各自有本身的形式特色,不必定能用樞軸變量法簡單求解。對於實在難辦的問題,若是樣本足夠大,能夠藉助中心極限定理,這也是爲何咱們要弄清楚正態分佈的假設檢驗。

  對於離散分佈,更是不能使用樞軸變量,邊界值只能取近似的整數。二項分佈的計算比較麻煩,最好是藉助極限定理近似。對於泊松分佈,因爲可加性,只需進行一次採樣(時長大一點會較好)。計算臨界值值會比較麻煩,但利用其形式特色,容易有式(6)成立(\(K_n(x)\)是\(\chi_n^2\)的分佈函數),這樣經過查表便可肯定\(k\)的值。

\[\sum\limits_{i=0}^k\dfrac{\lambda^ie^{-\lambda}}{i!}=\int_{\lambda}^{\infty}\dfrac{t^ke^{-t}}{k!}\,\text{d}t=1-K_{2k+2}(2\lambda)\tag{6}\]

  其它連續分佈中,指數分佈恰巧有樞軸變量\(2\lambda X\sim\chi^2\),所以參數的假設能夠利用\(2n\lambda\bar{X}\sim\chi_{2n}^2\)來檢驗。但注意到指數分佈本質是一個時間分佈,它有無限大的可能值,這對實際採樣形成了沒法控制的困難。現實中只能限定試驗時間或限定事件發生次數,其中前者比後者更可控,但精度上也會損失更多。這樣的方法稱爲截尾法,能夠假定\(n\)個獨立試驗同時進行,具體分爲定時截尾法定量截尾法

  先來看簡單一點的定量截尾法,就是當第\(r\)個事件發生時中止試驗,檢驗時必須充分利用已有的試驗數據,所以對已發生的事件都要記錄下時間。先來看一個簡單的結論,記\(Y\)爲\(X_i\)的最小值,它是一個隨機變量。能夠算得\(Y\)的分佈函數是\(1-e^{-\lambda nx}\),從而有式(7)成立。

\[Y=\min\{X_i\}\;\Rightarrow\;2n\lambda Y\sim\chi_2^2\tag{7}\]

  若是把每一個試驗的耗時排序成下圖,\(nY\)即是圖中的陰影部分之和,因爲指數分佈的無記憶性,接下來的\(n-1\)個事件能夠進行一樣的討論。觀察在時間\(Z\)中止,討論獲得了\(r\)個獨立的\(\chi_2^2\)分佈。設虛線\(Z\)如下的時間和爲\(T\),結合式(7)有式(8)成立,這就是咱們要的樞軸變量!

\[T=X_1+\cdots+X_r+(n-r)X_r\;\Rightarrow\;2\lambda T\sim\chi_{2r}^2\tag{8}\]

  定時截尾法更便於操做,但卻沒有式(8)同樣的漂亮結論,但能夠證實近似地有\(2\lambda T\sim\chi_{2r+1}^2\),其中\(r\)爲規定時間內發生的事件數。最後提一下,兩個截尾法中的\(r\)越接近\(n\),檢驗的精度越高,所以在設計實驗時,須要根據經驗或觀察設定合理的閾值。另外還請注意,結論(7)(8)也可用於參數估計。

1.4 檢驗標準

  大部分時候,檢驗方法只關心\(H_0\)區域的檢驗級別,但當要比較不一樣檢驗優劣的時候,\(H_1\)區域的否認率便稱成爲重要的參考。若是在全部\(\alpha\)級別的檢驗中,存在檢驗\(\varPhi_0\)對比任何檢驗\(\varPhi\)都知足式(9),\(\varPhi_0\)便稱爲一致最優檢驗。和MVU估計同樣,大部分場合下一致最優檢驗並不存在,即便存在也很難找到。

\[\beta_{\varPhi_0}(\theta)\geqslant\beta_{\varPhi}(\theta),\;\;(\theta\in H_1)\tag{9}\]

  但對於那些常見的假設問題,卻恰巧能夠找到一直最優檢驗,下面來討論這個問題(僅討論連續分佈,離散相似)。先來看最簡單的場景,咱們面臨的問題是要在兩個分佈\(F_0,F_1\)中二選一(也就是說\(\theta\)僅有兩個值供選擇),檢驗知足必定條件則斷定爲服從分佈\(F_0\)(這是原假設\(H_0\)),不然服從分佈\(F_1\)(對立假設\(H_1\))。如下記\(n\)次獨立試驗的聯合樣本空間爲\(\Omega\),兩個分佈生成的聯合密度函數分別是\(g_0(x),g_1(x)\)。

  水平爲\(\alpha\)的檢驗,本質上就是找\(\Omega\)上知足\(\int_A g_0(x)\,\text{d}x\leqslant\alpha\)的子集\(A\),當樣本落在\(A\)中則否認假設。首先容易看出知足\(\int_A g_0(x)\,\text{d}x=\alpha\)的\(A\)老是更優的檢驗,而全部這樣的\(A\)中必然有使得\(\int_A g_1(x)\,\text{d}x\)達到最大值的\(Q\)。更具體地,用取代比較法不難證實,\(Q\)應當對某個常數\(C\)知足式(10)左,結合式(10)右便能肯定\(C\),該結論稱爲奈-皮基本引理

\[Q=\{\,y\,|\dfrac{g_1(y)}{g_0(y)}>C\,\};\;\;\int_Q g_0(x)\,\text{d}x=\alpha\tag{10}\]

  如今利用以上引理討論一些分佈的單邊假設,所謂單邊假設就是\(\theta\leqslant\theta_0,\theta\geqslant\theta_0\)形式的假設。爲了從引理逐步擴展,先從\(H_0,H_1\)中分別任選\(\theta=a,\theta=b\)作爲新的假設和對立假設。根據式(10)計算正態分佈(方差已知)、二項分佈、泊松分佈、指數分佈,不難發現獲得的一致最優檢驗都有形式\(\bar{X}\leqslant C\)或\(\bar{X}\geqslant C\)。

  具體還能發現這個檢驗與\(b\)的選取無關,所以若是把對立假設擴展爲整個\(H_1\),獲得的檢驗仍然是一致最優的。另外還容易證實,這樣的單邊檢驗的功效函數在\(H_0\)上是單調的,所以必須取\(a=\theta_0\),才能在\(H_0\)上都達到水平\(\alpha\)。至此其實咱們已經證實了,對於上面列舉的幾個分佈,單邊假設的一致最優檢驗是存在的,且具備形式\(\bar{X}\leqslant C\)或\(\bar{X}\geqslant C\)。

2. 非參數檢驗

  參數檢驗仍是把注意力放在了參數自己,在有些場合下咱們還需關注整個分佈。具體說就是針對一個分佈的假設\(H_0\),須要根據觀察值去斷定他是否成立,這樣的問題被稱爲擬合優度檢驗。因爲試驗的隨機性,檢驗自己必然是一種機率評估,而且與分佈和樣本數都有關係。先來看最簡單的有限離散狀況,假設機率分佈是\(P(a_i)=p_i\),試驗\(n\)次中事件\(a_i\)發生了\(n_i\)次。最簡單的偏差度量方法就是看平方和\(S=\sum\limits_{i=1}^k(\dfrac{n_i}{n}-p_i)^2\),若是假設成立,\(S\)是一個接近於\(0\)的隨機變量(尤爲\(n\)很大時),這很是不利於估計檢驗水平。有了前面的訓練,你大概已經知道,咱們須要找一個樞軸變量,而且它能包含\(S\)的良好形式。

  其實根據中心極限定理,\(\dfrac{(n_i-np_i)^2}{np_i(1-p_i)}\)的極限服從\(\chi^2\)分佈,這就找到了樞軸變量該有的形式。能夠證實式(11)成立,其中自由度\(k-1\)與實際參數個數相同,\(Z\)被稱爲擬合優度\(\chi^2\)統計量。顯然當假設不成立時,\(Z\)將很是大,故假設檢驗的方法是,當\(Z\leqslant\chi_{k-1}^2(\alpha)\)時接受假設。檢驗水平是最根本的度量,它能把隨機形成的影響用最直觀的數值表達出來,從而避免了直覺帶來的錯覺。樣本數\(n\)較大時,看似符合分佈的實驗值都有可能被檢驗否認,反之樣本數較小時,看似很不符合假設的實驗值也可能被確定,這即是數學的一大功效。

\[Z=\sum\limits_{i=1}^k\dfrac{(n_i-np_i)^2}{np_i}\sim \chi_{k-1}^2\tag{11}\]

  現實中還有一種關於分佈的假設,只須要分佈知足必定條件便可,也就是說假設的是一組分佈族,表達出來的分佈會含有\(r\)個參數。對於這樣的檢驗問題,不妨先經過最大似然法求得一個具體分佈,而後在此分佈上計算擬合優度。能夠證實,這時的\(\chi^2\)統計量近似服從\(\chi_{k-r-1}^2\),其中點估計又損耗掉\(r\)個自由度。

  關於分佈族的檢驗中有一類常見問題,就是判斷兩個隨機變量\(X,Y\)是否獨立,在離散狀況就是驗證\(P(XY)=P(X)P(Y)\)。試驗中統計事件\(x_iy_j\)發生的次數\(n_{ij}\),它們組成的矩陣通常稱爲列聯表。設\(X,Y\)分別有\(r,s\)個事件,則顯然其機率\(p_1,\cdots,p_r,q_1,\cdots,q_s\)是假設分佈的參數,其有效個數是\(r+s-2\)。聯合事件\(x_iy_i\)的個數是\(rs\),故\(\chi^2\)統計量的自由度應該是\((r-1)(s-1)\)。

  如下記\(n_{i*}=\sum\limits_{j=1}^sn_{ij},\;n_{*j}=\sum\limits_{i=1}^rn_{ij}\),經過最大似然法不難求得\(\hat{p}_i=\dfrac{n_{i*}}{n},\;\hat{q}_j=\dfrac{n_{*j}}{n}\),最後求得擬合優度的統計量\(Z\)(式(12))。

\[Z=\sum\limits_{i=1}^r\sum\limits_{j=1}^s\dfrac{(nn_{ij}-n_{i*}n_{*j})^2}{nn_{i*}n_{*j}}\;\sim\;\chi_{(r-1)(s-1)}^2\tag{12}\]

  最後對於無窮離散分佈和連續分佈,能夠經過值的合併獲得有限個值域。好比無窮離散分佈能夠將大於某必定值的全部事件合併,連續分佈則是把隨機變量劃分紅有限個區間。爲了保證精度,每一個區間的樣本數不能過小,故區間應根據樣本的大體分佈和數量來劃分,在區間數儘可能大的基礎上,還要保證每一個區間的樣本數足夠大。對於有\(r\)個參數的分佈族,若樣本分紅了\(k\)個區間,擬合優度統計量一樣近似服從\(\chi_{k-r-1}^2\)。最後還要提示,最大似然法對公式(12)是必須的,但在難於計算的場合,用通常的點估計差距不會很大。

相關文章
相關標籤/搜索