【數理統計基礎】 02 - 統計量和三大分佈

1. 樣本和統計量

1.1 樣本和統計量

  數理統計討論的問題不必定都是隨機現象,好比人口信息的統計、具體數據的測量,它們的結果都是肯定的。但實際問題的操做並非數學所關心的,剝離問題的外殼,這些問題均可以用隨機現象來描述,好比人口信息和測量偏差均可以用一個正態分佈來近似。創建統計的機率模型,正是數理統計區別於廣義統計學的關鍵,爲模型定義統1、明確的對象也是任何數學分支的起點。函數

  既然這樣,數理統計的研究對象其實仍是隨機變量,具體問題中全部可能的取值被稱爲全體,而每個值稱爲個體。不一樣於機率論中研究分佈的性質,統計中的分佈信息每每是未知的,這樣的隨機變量習慣寫做\(X\)。爲了獲得\(X\)的更多信息,須要採集它的觀察值\(X_1,X_2,\cdots,X_n\),它們稱爲樣本。通常假定\(X_i\)是與\(X\)同分布的獨立隨機變量,具體樣本值則記做\(x_i\)。3d

  統計問題中的主要信息就是樣本值\(X_i\),能對它進行的處理只有函數計算\(f(X_1,\cdots,X_n)\),這些函數值被稱爲樣本統計量。統計量不能任意選取,它須要根據實際須要並通常有直觀意義。好比最經常使用的統計量是式(1)中的樣本均值\(\bar{X}\)和樣本方差\(S^2\),它們通常做爲分佈的均值和方差的估計值。對象

\[\bar{X}=\frac{1}{n}\sum\limits_{i=1}^nX_i;\;\;S^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\bar{X})^2\tag{1}\]blog

  既然樣本是隨機變量,統計量天然也是隨機變量。若是\(X\)的指望和方差是\((\mu,\sigma^2)\),則易知\(\bar{X}\)是有指望\(\mu\)和方差\(\dfrac{\sigma^2}{n}\)的隨機變量。不難算得,\(S^2\)的指望值正好是\(\sigma^2\),全部係數取\(\frac{1}{n-1}\)是合理的,\(S^2\)的完整稱謂是「修正的樣本方差」。咱們暫時能夠這樣「直覺」地解釋這個現象:均值\(\bar{X}\)是由\(X_i\)生成的,它會隨着\(X_i\)的變更而變更,這就致使真正自由、有效的變量減小了一個。下面立刻會回來從新討論這個問題。數學

  更通常的,比較重要的統計量還有樣本原點矩樣本中心距(式(2)),要注意\(k>1\)時,樣本中心距都須要修正,只不過在\(n\)很大時能夠近似地使用。其中一階原點矩即是樣本均值,二階中心距即是未修正的樣本方差,其它的統計量使用頻率不高。it

\[a_k=\frac{1}{n}\sum\limits_{i=1}^nX_i^k;\;\;m_k=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\bar{X})^k\tag{2}\]變量

  研究統計量是爲了獲取分佈的信息,咱們有一個很樸素的想法:當樣本數足夠多後,應當能繪製出分佈函數\(F(x)\)的圖形。根據分佈函數的定義特色,能夠定義這樣一個統計量\(v_n(x)\):它表示知足\(X_i\leqslant x\)的樣本數,並記\(F_n(x)=\dfrac{v_n(x)}{n}\),它稱爲經驗分佈函數。對於指定的\(x\),\(F_n(x)\)是隨機變量,當把\(x\)也看做變量時,咱們只好叫\(F_n(x)\)「隨機函數」。不過不用擔憂概念會變複雜,由於\(|F_n(x)-F(x)|\)的最大值纔是咱們要關心的,而它是一個隨機變量。數理統計中有著名的格里文科定理(式(3)),它說明\(F_n(x)\)以機率\(1\)收斂於\(F(x)\)。原理

\[P\left\{\lim_{n\to\infty}\sup_{x\in\mathbb{R}}\left|F_n(x)-F(x)\right|=0\right\}=1\tag{3}\]擴展

1.2 統計量的自由度

  在機率論中咱們熟知一個結論:若是\(X_1,\cdots,X_n\)互相不相關,則\(Y=X_1+\cdots+X_n\)的指望、方差能夠簡單地展開。\(n\)個\(X_i\)對\(Y\)的影響互不相關,這樣的統計量十分易於討論,咱們暫且稱它的自由度是\(n\)。下面就來研究一下樣本方差的自由度爲何是\(n-1\)而不是\(n\),不過在此以前,須要先討論一下隨機變量正交變換的性質。lambda

  對互不相關的隨機變量\(X_i\),設對它們作正交線性變換後獲得\(Y_i\),則首先容易獲得式(4)。而後分別展開\(E(Y_iY_j)\)和\(E(Y_i)E(Y_j)\),根據正交性,以及\(X_i\)獨立同分布,容易有式(5)成立,因此\(Y_i\)互不相關。這個結論對任何隨機變量都成立,且也符合正交變換的一向性質。

\[(X_1,\cdots,X_n)=(Y_1,\cdots,Y_n)A;\,AA^T=I\;\Rightarrow\;\sum_{i=1}^nX_i^2=\sum_{i=1}^nY_i^2\tag{4}\]

\[E(Y_iY_j)-E(Y_i)E(Y_j)=\sum_{k=1}^na_{ki}a_{kj}(E(X_k^2)-E^2(X_k))=0\tag{5}\]

  特別地,式(6)左的\(Y_1\)能夠擴展爲一個正交變換,利用式(4)即可獲得式(6)右的結論。這不只說明了\(S^2\)的自由度爲\(n-1\),還能夠知道\(\bar{X}\)和\(S^2\)是不相關的,這個結論很是重要。

\[Y_1=\sqrt{n}\bar{X}\;\Rightarrow\;\sum_{i=1}^n(X_i-\bar{X})^2=\sum_{i=1}^nX_i^2-Y_1^2=\sum_{i=2}^nY_i^2\tag{6}\]

  對於知足再生性的隨機變量,\(Y_i\)和\(X_i\)具備相同的分佈類型,且可知知足式(6)的\(Y_1\)有指望\(\sqrt{n}\mu\)和方差\(\sigma^2\),而其它\(Y_i\)有指望\(0\)和方差\(\sigma^2\)。特別地,當\(X_i\)是正態分佈時,能夠有式(7)成立,且\(\bar{X}\)與\(S^2\)相互獨立。對\(\bar{X}\)的結論,通常寫做式(8),右邊是一個肯定的分佈(後面會用到)。

\[X_i\sim N(\mu,\sigma^2)\;\Rightarrow\;Y_1\sim N(\sqrt{n}\mu,\sigma^2);\; Y_i\sim N(0,\sigma^2)\tag{7}\]

\[\dfrac{\sqrt{n}(\bar{X}-\mu)}{\sigma}\sim N(0,1)\tag{8}\]

  更通常地,對於自由度爲\(n\)的隨機變量\(Q=X_1^2+\cdots+X_n^2\),其中\(X_i\)互不相關。如今把\(Q\)當作\(X_i\)的正定二次型,並記行向量\(\vec{X}=[X_1,\cdots,X_n]\)。假設\(Q\)能夠分解爲\(r\)個半正定二次型之和(式(9)左),且\(Q_k\)的秩\(n_k\)知足\(n_1+\cdots+n_r=n\)。由\(A_k\)的秩爲\(n_k\)且半正定可知,存在\(n\times n_k\)的矩陣\(B_k\),使得\(Q_k=\vec{X}B_kB_k^T\vec{X}^T\)。

\[Q=Q_1+\cdots+Q_r=\vec{X}BB^T\vec{X}^T=\vec{Y}\vec{Y}^T\tag{9}\]

  令方陣\(B=[B_1,\cdots,B_r]\)和\(\vec{Y}=\vec{X}B\),則有\(Q=\vec{Y}\vec{Y}^T\)(式(9)右),從而\(BB^T=I_n\),\(B\)是一個正交矩陣。由於\(Y_j\)是由\(X_i\)正交變換而來,故根據式(5)知\(Y_j\)互不相關,繼而\(Q_k\)之間是互不相關的。值得提醒的是,當\(Q\)也是通常的半正定二次型時,結論仍然成立,這個條件使用起來會更方便,請自行論證。

  如今利用這個結論再討論\(S^2\)的自由度,首先顯然有式(10)成立,其中的每一項都是關於\(X_i\)的半正定二次型。當半正定二次型具備形式\(\sum\limits_{i=1}^nZ_i^2\),且\(Z_i\)還有\(r\)個線性約束條件時,它本質上是關於\(n-r\)個自由變量的正定二次型,從而秩爲\(n-r\)。這個小結論在斷定二次型秩時頗有用,好比\(S^2\)中設\(Z_i=X_i-\bar{X}\),則有\(1\)個限制條件\(Z_1+\cdots+Z_n=0\),從而\(S^2\)的秩爲\(n-1\)。另外顯然式(10)左的秩爲\(n\),\(\bar{X}\)的秩爲\(1\),知足以上定理的條件,故有\(S^2,\bar{X}\)不相關。

\[\sum_{i=1}^nX_i^2=n\bar{X}^2+(n-1)S^2\tag{10}\]

2. 統計學三大分佈

  統計量也是隨機變量,各類形式的統計量會產生許多新的隨機變量,這些變量中的有些是常常出現的,有必要事先對它們作一些介紹。由於正態分佈適用的場合最爲普遍,這裏的統計學三大分佈都是基於正態分佈的。

2.1 \(\chi^2\)(卡方)分佈

  在介紹\(\chi^2\)分佈以前,先討論一個更通常的分佈。將埃爾朗分佈中的\(r\)擴展爲任意正實數,獲得的分佈(11)稱爲\(\varGamma\)分佈,通常記做\(\varGamma(r,\lambda)\)。式子中的\(\varGamma(r)\)確保了\(p(x)\)爲密度函數,它被稱爲\(\varGamma\)函數。\(\varGamma\)函數在實數域是個\(U\)形函數,它有式(12)的基本結論,因爲\(\varGamma(n)=(n-1)!\),它也被當作是階乘概念的擴展。

\[p(x)=\dfrac{\lambda^r}{\varGamma(r)}x^{r-1}e^{-\lambda x},\;\varGamma(x)=\int_{-\infty}^{+\infty}t^{x-1}e^{-t}\,\text{d}t\tag{11}\]

\[\varGamma(x+1)=x\varGamma(x);\;\;\varGamma(1)=1,\;\varGamma(\dfrac{1}{2})=\sqrt{\pi}\tag{12}\]

  \(\varGamma\)分佈具備和埃爾朗分佈一樣的特徵函數,而且也知足再生性。這裏不打算討論\(\varGamma\)分佈的更多性質,而是關注它的一類特例。假設\(X\sim N(0,1)\),能夠證實\(X^2\sim\varGamma(\dfrac{1}{2},\dfrac{1}{2})\),這是個奇妙的巧合!若是\(X_1,\cdots,X_n\)是獨立的標準狀態分佈,利用再生性有式(13)成立,它被稱爲自由度爲\(n\)的\(\chi^2\)(卡方)分佈,記做\(\chi_n^2\)。

\[X_i\sim N(0,1)\;\Rightarrow\;\sum_{i=1}^nX_i^2\sim\varGamma(\dfrac{n}{2},\dfrac{1}{2})=\chi_n^2\tag{13}\]

  上圖是\(\chi^2\)分佈的密度函數,\(n=1\)時即是\(X^2\),它有兩條漸近線,\(n=2\)時是指數分佈,\(n>2\)時分佈曲線相似但愈來愈扁平。容易算得\(\chi_1^2\)有指望\(1\)和方差\(2\),這就獲得\(\chi_n^2\)分佈的指望和方差(式(14))。繼續上面對\(S^2\)的討論,因爲\(Y_i\sim N(0,\sigma^2)\),能夠獲得\(S^2\)知足式(15)。另外若是\(X\)是指數函數,顯然有\(2\lambda X\sim\chi_2^2\)。

\[Y\sim \chi_n^2\;\Rightarrow\;E(Y)=n;\;D(Y)=2n\tag{14}\]

\[\dfrac{(n-1)S^2}{\sigma^2}\sim\chi_{n-1}^2\tag{15}\]

  \(\chi^2\)分佈的引入無非是爲了討論樣本方差的性質,這個分佈中不含有任何未知的參數,這種肯定的分佈很是便於機率的量化計算。但在量化分析的表達式中,不該該含有未知的參數(樣本值\(X_i\)、樣本容量\(n\)等屬於已知量),這樣的表達式通常稱爲樞軸變量。簡單說,樞軸變量由已知量組成,且造成一個肯定的分佈,這個之後會深刻討論。

  通常教材上自由度的概念定義在隨機變量\(Q=X_1^2+\cdots+X_n^2\)上,其中\(X_i\)是獨立的標準正交分佈。若是\(Q\)能夠分解爲\(k\)個半正定二次型,且秩的和爲\(n\),則根據前面關於自由度的結論,變換矩陣\(B\)爲正交矩陣,從而\(Y_i\)也是互相獨立的正交分佈。進而\(Q_k\)是自由度爲\(n_k\)的卡方分佈,且它們互相獨立。這個結論稱爲柯赫倫(Cochran)分解定理,在數理統計中有着很是廣泛的應用。

2.2 \(t\)分佈

  公式(8)中參數\(\sigma\)每每是未知的,這會給分析帶來困難,這時能夠用\(S\)能夠作爲\(\sigma\)的近似。令\(X,Y\)分別表明式(8)(15)中的變量,消除\(\sigma\)後就造成變量\(\dfrac{X}{\sqrt{Y/(n-1)}}\)。這應當是咱們要關心的數軸變量,它的分佈是肯定,爲了便於討論研究,須要爲它做個定義。通常地,式(16)中的分佈被稱爲自由度爲\(n\)的\(t\)分佈,記做\(t_n\)。下圖是其密度函數,有人已經證實,當\(n\to\infty\)時,\(t\)分佈收斂於正態分佈,這也是符合直覺的。

\[X\sim N(0,1);\;Y\sim \chi_n^2\;\Rightarrow\;\dfrac{X}{\sqrt{Y/n}}\sim t_n\tag{16}\]

  再回到對式(8)(15)的討論,顯然有式(17)成立,這個結論之後常常用到。關於(17)式我想強調一下,式中好像是用\(S\)取代了\(\sigma\),這只是巧合而已,不要忘了其背後原理仍是(8)(15)的結合。是由於\(\sigma\)恰巧被消掉纔出現了式(17),遇到更復雜的狀況時,要從新仔細計算(下一篇將遇到)。

\[\dfrac{\sqrt{n}(\bar{X}-\mu)}{S}\sim t_{n-1}\tag{17}\]

2.3 \(F\)分佈

  還有一種常見的場景,就是比較兩個分佈的方差比\(\sigma_1^2/\sigma_2^2\)。一樣利用\(S_i^2\)近似\(\sigma_i^2\),並利用公式(15)能夠進行相似的討論。爲此,將式(18)中的分佈被稱爲自由度爲\(m,n\)的\(F\)分佈,記做\(F_{m,n}\),下圖是它的密度函數。

\[X\sim\chi_m^2;\;Y\sim\chi_n^2\;\Rightarrow\;\dfrac{X/m}{Y/n}\sim F_{m,n}\tag{18}\]

  回到方差的比較,設\(X,Y\)的方差分別爲\(\sigma_1^2,\sigma_2^2\),樣本容量分別爲\(m,n\),樣本方差分別爲\(S_1^2,S_2^2\),容易知道有式(19)成立。

\[\dfrac{S_1^2}{S_2^2}\cdot\dfrac{\sigma_2^2}{\sigma_1^2}\sim F_{m-1,n-1}\tag{19}\]

  數理統計中使用分佈函數時,和機率論中是相反的,即根據機率值來肯定隨機變量的值。知足\(P(X>C)=\alpha\)的\(C\)被稱爲分佈的\(\alpha\)上分位點,對於正態分佈和上面的三大分佈,\(\alpha\)上分位點分別記做\(u(\alpha),\chi_n^2(\alpha),t_n(\alpha),F_{m,n}(\alpha)\)。其中\(t_n,F_{m,n}\)有式(20)的簡單性質,它們在計算和製表中比較有用,證實比較簡單,請自行驗證。

\[t_n(1-\alpha)+t_n(\alpha)=0;\;\;F_{m,n}(\alpha)\cdot F_{n,m}(1-\alpha)=1\tag{20}\]

相關文章
相關標籤/搜索