【數理統計基礎】 03 - 參數估計

  數理統計要解決的問題是,根據樣本的信息猜想隨機變量的信息。隨機變量的分佈可能徹底未知,也可能已經斷定爲某類分佈\(f(x,\theta_1,\cdots,\theta_k)\),但有未知參數\(\bar{\theta}=(\theta_1,\cdots,\theta_k)\),這是數理統計中最常研究的情景。函數

1. 點估計

  一類最簡單的問題是,要求給出參數函數\(g(\bar{\theta})\)的一個統計量估計\(\hat{g}(X_1,\cdots,X_n)\)。由於對於某次試驗,估計量\(\hat{g}\)是肯定的值,它被稱爲\(g\)的點估計。須要估計的函數\(g\)每每是參數\(\bar{\theta}\)自己,這裏只討論經常使用分佈的參數估計。學習

1.1 矩估計

  點估計就是值的近似,而分佈的矩和樣本矩正是一對現成的近似關係,並且大數定理也保證了它們的極限關係。被估函數\(g\)和估計量\(\hat{g}\)分別取矩和樣本矩的方法就叫矩估計法,只須要有\(k\)個不一樣的聯立方程(1)便能獲得參數的估算值\(\hat{\theta}_1,\cdots,\hat{\theta}_k\)(但不必定全部時候都要求估計參數)。而常見的分佈只有一個或兩個參數(正態分佈),每每用樣本均值\(\bar{X}\)或樣本方差\(S^2\)就能獲得很好的估計。事件

\[\hat{g}_i(X_1,\cdots,X_n)=g_i(\theta_1,\cdots,\theta_k),\;\;(i=1,\cdots,k)\tag{1}\]數學

  對於經常使用分佈的矩估計,這裏就不一一列舉了,計算並沒有本質困難。這裏僅給出均勻分佈\([\theta_1,\theta_2]\)的矩估計(均值和方差)結果(式(2)),請注意和其它方法的比較。it

\[\hat{\theta}_1=\bar{X}-\sqrt{3}S;\;\;\hat{\theta}_2=\bar{X}+\sqrt{3}S\tag{2}\]變量

1.2 最大似然估計

  矩估計法是一個很是符合直觀的方法,但並非惟一的方法,換一個思惟,也能找到別的「合乎情理」的方法。站在機率論的角度,咱們但願能找到參數「可能性最大」的值,但關於可能性的度量還比較含糊。教材上直接告訴咱們,若是分佈的密度函數是\(f(x,\bar{\theta})\),則整個樣本的密度函數爲式(3),對於肯定的採樣\((x_1,\cdots,x_n)\),合適的\(\hat{\theta}_i\)應當使得\(L(\bar{\theta})\)達到最大值。用這樣的\(\hat{\theta}_i\)做爲\(\bar{\theta}\)的點估計的方法叫作最大似然估計法,\(L(\bar{\theta})\)則稱爲似然函數擴展

\[L(x_1,\cdots,x_n,\theta_1,\cdots,\theta_k)=\prod_{i=1}^n f(x_i,\theta_1,\cdots,\theta_k)\tag{3}\]lambda

  這個方法看起來很合理,但和矩估計法差異太大,甚至讓人擔憂會得出相矛盾的結論。而且若是仔細推敲,這樣的似然函數其實並不合理,由於\(L(\bar{\theta})\)最大和最可能的\(\bar{\theta}\)仍是有很大差異的,\(L(\bar{\theta})\)並不能輕易當作\(\bar{\theta}\)的密度函數。講到這裏,其實咱們已經觸及到數理統計中的一個爭論點了,就是\(\bar{\theta}\)究竟應該當作肯定值仍是隨機變量?方法

  矩估計法就是把\(\bar{\theta}\)看作肯定值,這也是符合直覺的。但若是非要討論最大可能性的\(\bar{\theta}\),就不得不把它當作隨機變量看待,這就是貝葉斯思想。似然函數本質上應當是個條件機率\(P(A|B)\),條件\(B\)就是觀察值\(x_1,\cdots,x_n\),但初始機率\(P(A)\)是什麼?這就是問題的關鍵,\(\bar{\theta}\)應當有個初始分佈,答案很簡單,初始的\(\bar{\theta}\)默認是均勻分佈的。這正是最大似然法適用的場合與實際意義,使用時必定要確保這個假設是成立的,詳細的貝葉斯法在下一段展開討論。im

  爲了計算方便,通常是求解\(\ln L(\bar{\theta})\)的極值,即求聯立方程(4)的解,獲得的是函數不動點,有時還要論證是否爲最值。經常使用分佈的最大似然估計大多與矩估計法的結果同樣,這是一種巧合,但也說明了最大似然估計法的有效性。不過也有與矩估計法不一樣的,好比正態分佈的方差,獲得的估計是\(m_2\),而非修正的樣本方差。再好比均勻分佈\([\theta_1,\theta_2]\),因爲密度函數非零的部分是\((\theta_2-\theta_1)^{-n}\),顯然在\(\theta_2-\theta_1\)最小時取得最大值,故有式(5)的估計。

\[\frac{\partial[\ln L(\theta_1,\cdots,\theta_k)]}{\partial\theta_i}=0,\;\;(i=1,\cdots,k)\tag{4}\]

\[\hat{\theta}_1=\min\{X_i\};\;\;\hat{\theta}_2=\max\{X_i\}\tag{5}\]

1.3 優良性準則

  對於同一個參數,能夠有不一樣的點估計,在具體的場景下應當如何選擇,是很重要的問題。在制定準則時,有兩點須要注意:一是斷定準則是根據具體需求制定,好壞並非絕對的;二是斷定準則每每是針對全體樣本的,某個具體樣本的好壞不足以說明問題。

  最簡單的準則就是無偏性,它要求\(E(\hat{g}(\theta))=g(\theta)\)。無偏性適用於屢次偏差能夠補償的狀況,好比買東西的重量,偏差形成的雙方損失能夠互補。但對於精度要求高的場景,還但願\(\hat{g}(\theta)\)儘可能聚攏在\(g(\theta)\)周圍,也就是說它的方差還要儘可能小。在全部無偏估計中,方差最小的稱爲最小方差無偏估計,簡稱MVU估計

  MVU估計比較難找,甚至根本不存在。有一個樸素的思想是,若是能獲得\(D(\hat{g}(\theta))\)的一個下界,而且正好找到了這樣的\(\hat{g}(\theta)\),那麼就是找到了MVU估計。這個看似異想天開的方法,竟然還真有比較好的結論,下面來看看。結論的靈感來自於不等式\(\text{Cov}^2(\xi,\eta)\leqslant D(\xi)D(\eta)\),其中等式成立的充要條件是\(\xi,\eta\)(中心化後)有簡單的線性關係。

  構造的思路是這樣的,須要選擇一個統計量\(G\),它使得\(\text{Cov}(\hat{g},G)\)是與\(\hat{g}\)無關的常量,而後全部\(\hat{g}\)中還存在與\(G\)有簡單線性關係的統計量。對\(\hat{g}\)的惟一限制條件是其指望爲\(g\),它也是惟一可利用的等式,所以\(G\)要取與樣本分佈密度\(p=\prod f(X_i,\theta)\)有關的函數。這個問題正面求解彷佛很難,咱們不妨從最簡單的場景入手,就拿正態分佈的均值估計\(\bar{X}\)爲例,與\(p\)有關且與\(\bar{X}\)有線性關係的量是式(6)中的\(G\)。

\[G(X_1,\cdots,X_n)=\sum_{i=1}^n[\ln f(X_i,\theta)]'_{\theta}=\sum_{i=1}^n\dfrac{f'_{\theta}(X_i,\theta)}{f(X_i,\theta)}\tag{6}\]

  能夠計算獲得,\(\text{Cov}(\hat{g},G)=g'(\theta)\),而後還能獲得\(E(G)=0\),接下來由\(X_i\)的獨立性能夠把\(D(G)\)記做\(nI(\theta)\)。最終獲得式(7)的克拉美-勞不等式,其中\(I(\theta)\)被稱爲費歇爾信息量(若是\(X_i\)是離散的也有相似的表達式),也許在信息論中會有更好的闡述,這裏就不探究了。證實中還需知足一些一致性的要求,這裏也省略了,請自行參考教材。

\[D[\hat{g}(X_1,\cdots,X_n)]\geqslant\dfrac{[g'(\theta)]^2}{nI(\theta)};\;\;I(\theta)=\int_{-\infty}^{\infty}\dfrac{[f'_{\theta}(x,\theta)]^2}{f(x,\theta)}\,\text{d}x\tag{7}\]

  式(6)對任何統計量都成立,咱們更應當關注等號成立的條件,即\(\hat{g}\)和\(G\)有線性關係。對於均值估計\(\bar{X}\),要想它是MVU估計,只需\([\ln f(x,\theta)]'_\theta\)是\(x\)的線性函數(固然還要驗證一致性,這裏略去),容易驗證常見分佈通常都知足這個條件。另外還能夠證實,方差\(S^2\)也是\(\sigma^2\)的MVU估計。

2. 區間估計

  參數估計的目的是對參數更多的瞭解,點估計的結果雖然直接易用,但卻丟失了太多參數的信息,使用上也沒有靈活性。爲了包含參數的更多信息,咱們但願找到兩個統計量\(\hat{g}_1,\hat{g}_2\),以區間形式估計參數,並達到必定的機率要求。通常是對給定足夠小的\(\alpha>0\),要找到儘可能小的區間\([\hat{g}_1,\hat{g}_2]\),使它能以\(1-\alpha\)的機率包含\(g(\theta)\)(式(8))。

\[P[\hat{g}_1(X_1,\cdots,X_n)\leqslant g(\theta)\leqslant\hat{g}_2(X_1,\cdots,X_n)]=1-\alpha\tag{8}\]

  這樣的估計方法叫區間估計,其中\([\hat{g}_1,\hat{g}_2]\)叫置信區間,而\(1-\alpha\)是區間的置信係數。有兩點須要強調:一個是這裏仍然是把參數當作肯定值,把樣本當作隨機變量,因此置信係數的意義是「區間能包含參數」的機率,而非「參數落在區間裏」的機率;另外一個是區間長度越小越好,但不作強求,由於區間自己就是隨機變量,對它最小值的討論比較困難。

  爲了構造統計量\(\hat{g}_1,\hat{g}_2\),觀察式(8),其中只包含待估參數和樣本值,以及它們之間的機率不等式。一種比較方便的構造方法是這樣的,找一個變量\(G(g(\theta),X_1,\cdots,X_n)\),它服從一個比較簡單的分佈\(F\)。爲了生成置信區間,通常把變量值限定在\(E(G)\)的兩側,每測的機率分別取\((1-\alpha)/2\)。若是用\(f(\alpha)\)表示\(F\)的\(\alpha\)分位點,則創建不等式(9),整理後便能獲得式(8)置信區間。

\[E(G)-f(1-\frac{\alpha}{2})\leqslant G(g(\theta),X_1,\cdots,X_n)\leqslant E(G)+f(\frac{\alpha}{2})\tag{9}\]

  這裏的\(G\)就是前面提到過的樞軸變量,所以該方法也叫樞軸變量法。不少分佈的樞軸變量比較難構造或者計算量大,甚至有時對分佈徹底未知,這時若是樣本足夠大,能夠利用中心極限定理,以標準正態分佈做爲樞軸變量。這裏咱們只討論正態分佈,它的經常使用樞軸變量還有上篇介紹的三大變量,請先回顧相關性質。如下討論僅給出樞軸變量,具體置信區間請自行計算,並無本質困難。

  先討論單樣本的正態分佈\(X\sim N(\mu,\sigma^2)\)。估計均值\(\mu\)時,\(\sigma\)可能已知也可能未知,上篇的公式(8)和(15)即是對這兩種狀況的樞軸變量。再估計方差\(\sigma^2\),一樣分爲\(\mu\)已知和未知兩種狀況,\(\mu\)已知的狀況比較簡單,未知時上篇的公式(17)即是咱們要的樞軸變量。

  再討論兩樣本的正態分佈,通常是根據兩個隨機變量的觀察值,比較它們的參數。設兩個隨機變量爲\(X\sim N(\mu_1,\sigma_1^2)\)和\(X\sim N(\mu_2,\sigma_2^2)\),樣本分別是\(X_1,\cdots,X_m\)和\(Y_1,\cdots,Y_n\)。一種是要考察\(\mu_1-\mu_2\)的大小,通常的作法固然是用\(\bar{X}-\bar{Y}\)去估計它。當\(\sigma_i\)都已知時,\(\bar{X}-\bar{Y}\)的方差爲\(\sigma^2=\dfrac{\sigma_1^2}{m}+\dfrac{\sigma_2^2}{n}\),樞軸變量比較顯然。

  當\(\sigma_i\)都未知時,暫時沒辦法把\(\sigma\)消除(即便用\(S_1^2+S_2^2\)也不行),這裏只討論\(\sigma_1=\sigma_2\)的場景。爲了能使用\(t\)分佈,直接使用式(10)中的\(S^2\)來近似方差,容易獲得樞軸變量(11)。當\(\sigma_1\ne \sigma_2\)時,暫時沒有完美的解決方法,該問題稱爲貝倫斯-費歇爾問題

\[S^2=\dfrac{\sum\limits_{i=1}^m(X_i-\bar{X})^2+\sum\limits_{i=1}^n(Y_i-\bar{Y})^2}{m+n-2}\tag{10}\]

\[\dfrac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{1/m+1/n}\cdot S}\sim t_{m+n-2}\tag{11}\]

  最後來比較\(X,Y\)的方差,直接做差比較難處理,並且意義也不明顯。通常是估計\(\sigma_1^2/\sigma_2^2\)的大小,它能夠直接使用上一篇的式(19)做爲樞軸變量。

3. 貝葉斯估計

  如今來正式討論貝葉斯估計,它的模型直接從事件的條件機率擴展而來,只不過由事件機率擴展爲分佈密度(一樣適用於離散分佈)。貝葉斯法的最大特色就是把參數\(\theta\)看作一個隨機變量,如何理解這一點很是關鍵。現實中參數\(\theta\)必定是肯定的,只不過咱們不知道它的信息。但根據過去的認識或合理的假設,對\(\theta\)的全部可能值會有個評估,這樣的評估就使得\(\theta\)有了隨機變量的性質。須要着重強調的是,隨機變量不是變量,它只是對不一樣可能性的一種描述。

  腦洞再開大一點,則能夠認爲咱們以必定機率處在不一樣的平行時空中,而\(\theta\)在每個時空中都有一個肯定的值。在獲得觀察\(X_1,\cdots,X_n\)後,咱們須要從新評估處在不一樣時空的機率。這是典型的條件機率問題,但要注意,這時討論的樣本空間是\(\theta,x_1,\cdots,x_n\)。假設隨機變量\(X\)的密度函數爲\(f(x,\theta)\),參數\(\theta\)的先驗分佈的密度函數爲\(h(\theta)\),容易獲得\(\theta\)的後驗機率的密度函數(式(12))。

\[h(\theta\,|\,x_1,\cdots,x_n)=\dfrac{p(\theta)}{\int p(\theta)\,\text{d}\theta},\;\;p(\theta)=h(\theta)\prod_{i=1}^nf(x_i,\theta)\tag{12}\]

  前面說過,最大似然估計本質上也是貝葉斯思想,只是先驗分佈採用的是均勻分佈。這裏有個很現實的問題,如何在無限區間(好比整個實數域、全部正數等)上定義均勻分佈?這個對咱們仍是太困難,也許測度論中會有完美解釋?這就不得而知了。但仍是能夠換個思路,\(h(\theta)\)在條件分佈中本質上起到的是「權重」的做用,也就是說它的根本意義在於代表機率之間的「比重」。好比對於均勻分佈,只需取\(h(\theta)=1\)就足以說明「均勻」的性質,沒必要要求\(h(\theta)\)是一個嚴格的密度函數(但由式(12)易知後驗機率必定是密度函數)。

  但不管如何,在式(12)的使用過程當中,必須先給出一個先驗分佈\(h(\theta)\),這個分佈的選擇很是影響估計結果。不少時候先驗分佈難以肯定,只能憑主觀經驗,這給貝葉斯方法帶來了不少詬病。但因爲貝葉斯思想的有效性和方便性,它在數理統計中仍然大行其道,甚至造成了所謂的貝葉斯學派,以區別于堅持頻率方法的學者。一種和解的方法是認可兩個模型本質的不一樣,而且互相補充、互相學習。但以我的粗淺的瞭解,我以爲貝葉斯思想是對傳統模型的擴充,它是用先驗機率把傳統模型補充完整而已。這個補充就如同虛數於實數系統同樣,是打破直覺卻很是必要的抽象,是現代數學所具備的特徵。

  貝葉斯模型是完整的,且邏輯自洽的,方法自己不該該被詬病。既然問題出在先驗機率的選擇,那麼在使用時挑選最合適的便可。這就是另一個問題了,須要更多的理論分析和支持,不能把這部分工做的欠缺怪罪於貝葉斯模型自己。在大部分場合,\(h(\theta)\)通常遵循「同等無知」原則,這個原則的缺點也是顯然的:若是對\(\theta\)是同等無知的,則對它的函數則基本不知足。這時選擇對誰同等無知就很關鍵,在正態分佈中通常取\(h(\sigma)=\sigma^{-1}\),在指數分佈中通常取\(h(\lambda)=\lambda^{-1}\)。

  後驗機率能夠看作包含了參數的全部信息,它能夠被用做點估計和區間估計。在點估計時,最合理的應當是取指望值,而非最大似然法中的最大值。伯努利分佈(先驗機率取均勻分佈)在貝葉斯方法中的指望值是\(\hat{p}=\dfrac{N+1}{n+2}\),這在\(n\)很小時明顯更合理(最大似然法獲得\(\dfrac{N}{n}\))。

  後驗機率上的區間估計實現起來很是方便,它有統一的計算過程,而不依賴於具體分佈。針對指定的置信係數,尋找最小的置信區間,是存粹的分析學計算問題。後驗分佈有對稱軸時,最小置信區間通常也是對稱的。其它狀況下,能夠先固定一個邊界以肯定另外一個邊界,而後變更第一個邊界尋找最小區間。實在複雜的計算,也能夠直接交給計算機完成。最後須要提醒一下,這裏的置信區間和第二段中的置信區間有着本質的區別,一個是\(\theta\)自身(隨機變量)的取值區間,一個是能夠包含\(\theta\)(肯定值)的區間,請仔細體會。

相關文章
相關標籤/搜索