以測量的角度:從中心極限定理到假設檢驗

近來讀一篇Paper,研究者利用假設檢驗來驗證兩個不一樣消費者是否一塊兒逛商場。函數

同時最近在看 G.H.韋恩堡的《數理統計初級教程》,藉着這個機會,因此把假設檢驗梳理概括了一下,從測量的角度。我的統計測量水平有限,錯漏之處,如有大神指點,不勝感激。ui

 

一切的基礎,高斯分佈

全部知道數理統計的人,恐怕沒有不知道高斯分佈(正態分佈)的,因此這裏直接引維基的介紹:spa

 

 

大部分的統計問題,測量問題,包括像最小二乘的平差,都是創建在正態分佈的基礎上。對於不少非高斯分佈, 也有經過某種轉化變成到高斯分佈來分析。3d

 

中心極限定理

 維基的解釋爲:blog

中心極限定理機率論中的一組定理。中心極限定理說明,在適當的條件下,大量相互獨立隨機變量的均值經適當標準化後依分佈收斂正態分佈。這組定理是數理統計學和偏差分析的理論基礎,指出了大量隨機變量之和近似服從正態分佈的條件。教程

但《數理統計初級教程》的說法恐怕更好懂:ip

  假定等容量的隨機樣本都從同一無限整體採樣,則每個樣本的和構成的新分佈漸進正態分佈。(並且!! 原整體分佈不必定要是正態分佈)get

同理根據正態分佈的特性,把該定義拓展到對於每一個樣本的均值構成的新分佈,也是漸進正態分佈的。 並且該新分佈的均值與原整體的均值相同,而該新分佈的標準差與原整體的標準差之比爲根號N.it

 

一個尺子測量的例子

問題的提出:
 
若是有一把尺子,用來測量一段距離,大部分人都知道,多測幾回取均值是可取的。若是有粗差知識(outlier),可能會進行粗差剔除後取均值。相似於裁判打分去掉最高分,去掉一個最低分。
 
那麼這個取均值的背後,事實上是基於觀測數據僅含有偶然偏差,也就是說尺子自己沒有系統偏差的狀況下的最優估計。那麼如何判斷一把尺子到底有沒有系統偏差呢?
 
天然而然,咱們會想到須要一個基準(或者說一個真實值已知的距離,這裏叫他基線)而後經過測量該值來對尺子進行檢驗。具體一點,假若有一根基線長爲100cm, 利用一把尺子測量了該基線屢次,結果爲99,100,101, 101,測量均值u=100.3,那麼這個0.3究竟是偶然偏差(也就說這個尺子能夠認爲沒系統偏差,能夠拿去測量其餘的東西),仍是具備系統偏差(須要糾偏,好比說每一個測量值都減去0.3)呢?
直觀上,0.3/100很小,尺子應該沒偏差吧。 可是,直覺對科學很重要,僅靠直覺不去量化驗證又是不科學的。
 
那麼統計學的作法是什麼呢?
 
首先,光靠100.3這個值咱們其實很難保證說這個尺子就必定沒問題,由於你不能經過舉正例來證實你的觀點。可是話說回來,若是利用反證法,也就說咱們假如可以證實沒偏差的尺子測出來100.3的機率很是小,那麼這個尺子幾乎是必定有問題,須要再校訂的。這其實就是假設檢驗最基礎的intuition.
 
而這個intuition放在正態分佈裏面,反例是什麼肯定的呢? 反例就是那些只有極小機率纔會發生的值,對應到正態分佈機率密度鍾型曲線靠近兩邊的那些取值。 也就是說,假如你告訴我說你這個x~N(100,1),而後我取一個觀測值x,結果這個x居然是很小几率(p<5%)纔會發生的值,那麼我就不得不懷疑你這個假設的正確性了。對應到尺子的例子,那就是這個正態分佈的準確性了(基線長度)或者就得懷疑這個觀測值x的取值方法(尺子有系統偏差)是否是正確了!!!也就是否定你這個x~N(100, 1)的假設了!
 
這是由於正態分佈的特徵主要由指望和方差決定:
   1. 這個均值分佈的整體指望咱們知道,假如方差也知道,那麼分佈就徹底肯定了
   3. 因此在這個均值方差都知道的分佈裏,咱們能夠計算某個機率區間的上下限(好比說能夠知道落在X1-X2的機率是95%)。
   4. 那麼若是一個樣本在X1-X2中,那麼咱們沒理由認爲這個尺子有問題(雖然它仍是可能有問題,可是咱們沒法判斷它 只能接受它沒問題)。而若是落在那5%的區間裏(x<X1或者x>X2),咱們認爲你在逗我吧這麼小的機率你也搞到,那確定是你本身有問題(尺子有系統偏差),也就是拒絕接受尺子沒問題這個設定,你回去再校訂吧。
 
再舉個例子:你假設你手上的硬幣是均勻的,而後你投擲了100次,結果發現90次都是正面,那你敢相信這個假設是對的嗎?因此這也牽涉出來,假設檢驗的目的,在於否認原假設,原假設否認不了咱們才接受備選假設。注意是接受了假設,而不是證實了假設。什麼意思呢,好比100次投擲裏50次正面,符合咱們的假設,可是依然沒人敢保證這個假設是嚴格正確的,只能說從統計數據來看沒辦法證實它是錯的,那就暫時認爲它是對的吧。
 
在這個intuition明白以後,假設檢驗的流程也明白了:
1.  肯定原假設H0(好比尺子沒問題,硬幣均勻), 和備選假設H1(尺子有問題,硬幣不均勻)
2. 肯定咱們在何時會拒絕原假設,一般是0.05 也就是說假如統計數據居然落在那5%裏面,我要拒絕原假設
3. 在原假設的基礎上去探尋該統計數據可能出現的機率,看齊是否小於5%
 
那麼這個intuition如何拓展開呢?
1.  假設可能不是直接針對於分佈自己 (統計量的選取,字樣的函數,其分佈應該已知好比t分佈)
2. 若是抽樣的數據自己不是正態分佈呢? ---> 中心極限定理
3. 若是主體的方差和指望並不已知的狀況下如何判斷機率呢?
     這個時候就是利用t-分佈這個統計量了:值得注意的是,當子樣容量n>=200 用樣本方差代替整體方差被認爲是嚴密的,>30時候認爲用樣本方差代替整體方差進行檢驗的結果可信(u檢驗和t檢驗一致)。
 
中心極限定理: 爲何咱們假設尺子沒問題的話多測測量的均值知足正態分佈?
   首先,這把尺子測量的4次結果,至關於統計中的從整體中(無數把尺子對該基線進行測量的數據整體)抽出來來的一個樣本,不難想象,假如整體樣本有無限把尺子進行測量,就算尺子自己有系統偏差也會有不一樣的系統偏差相互抵消,也就是說整體的指望值爲100, 這就是中心極限定理:從大容量的同一整體中抽取等容量的樣本,則每個樣本的均值構成的分佈趨近於正態分佈且指望爲整體的指望。
 
寫到這裏忽然以爲,仍是先看《數理統計初級教程》第十,第十一章後,細看《偏差理論與測量平差基礎》第十一章來的清楚,做罷做罷。
 

參考:

相關文章
相關標籤/搜索