極大似然估計 摘自維基百科

最大似然估計[編輯]  

原文地址:

http://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1

 
 

最大似然估計,也稱爲最大概似估計,是一種統計方法,它用來求一個樣本集的相關機率密度函數的參數。這個方法最先是遺傳學家以及統計學家羅納德·費雪爵士在1912年至1922年間開始使用的。php

 

 

預備知識[編輯]

下邊的討論要求讀者熟悉機率論中的基本定義,如機率分佈機率密度函數隨機變量數學指望等。同時,還要求讀者熟悉連續實函數的基本技巧,好比使用微分來求一個函數的極值(即極大值極小值)。app

最大似然估計的原理[編輯]

給定一個機率分佈D,假定其機率密度函數(連續分佈)或機率質量函數(離散分佈)爲f_D,以及一個分佈參數\theta,咱們能夠從這個分佈中抽出一個具備n個值的採樣X_1, X_2,\ldots, X_n,經過利用f_D,咱們就能計算出其機率:ide

\mathbb{P}(x_1,x_2,\dots,x_n) = f_D(x_1,\dots,x_n \mid \theta)

可是,咱們可能不知道\theta的值,儘管咱們知道這些採樣數據來自於分佈D。那麼咱們如何才能估計出\theta呢?一個天然的想法是從這個分佈中抽出一個具備n個值的採樣X_1, X_2, ..., X_n,而後用這些採樣數據來估計\theta.函數

一旦咱們得到X_1, X_2,\ldots, X_n,咱們就能從中找到一個關於\theta的估計。最大似然估計會尋找關於\theta的最可能的值(即,在全部可能的\theta取值中,尋找一個值使這個採樣的「可能性」最大化)。這種方法正好同一些其餘的估計方法不一樣,如\theta非偏估計,非偏估計未必會輸出一個最可能的值,而是會輸出一個既不高估也不低估的\theta值。spa

要在數學上實現最大似然估計法,咱們首先要定義似然函數:3d

\mbox{lik}(\theta) = f_D(x_1,\dots,x_n \mid \theta)

而且在\theta的全部取值上,使這個函數最大化(一階導數)。這個使可能性最大的\widehat{\theta}值即被稱爲\theta最大似然估計ip

注意[編輯]

  • 這裏的似然函數是指x_1,x_2,\ldots,x_n不變時,關於\theta的一個函數。
  • 最大似然估計函數不必定是唯一的,甚至不必定存在。

例子[編輯]

離散分佈,離散有限參數空間[編輯]

考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不一樣。咱們把這個硬幣拋80次(即,咱們獲取一個採樣x_1=\mbox{H}, x_2=\mbox{T}, \ldots, x_{80}=\mbox{T}並把正面的次數記下來,正面記爲H,反面記爲T)。並把拋出一個正面的機率記爲p,拋出一個反面的機率記爲1-p(所以,這裏的p即至關於上邊的\theta)。假設咱們拋出了49個正面,31個反面,即49次H,31次T。假設這個硬幣是咱們從一個裝了三個硬幣的盒子裏頭取出的。這三個硬幣拋出正面的機率分別爲p=1/3p=1/2p=2/3.這些硬幣沒有標記,因此咱們沒法知道哪一個是哪一個。使用最大似然估計,經過這些試驗數據(即採樣數據),咱們能夠計算出哪一個硬幣的可能性最大。這個似然函數取如下三個值中的一個:資源

\begin{matrix}
\mathbb{P}(\mbox{H=49, T=31 }\mid p=1/3) & = & \binom{80}{49}(1/3)^{49}(1-1/3)^{31} \approx 0.000 \\
&&\\
\mathbb{P}(\mbox{H=49, T=31 }\mid p=1/2) & = & \binom{80}{49}(1/2)^{49}(1-1/2)^{31} \approx 0.012 \\
&&\\
\mathbb{P}(\mbox{H=49, T=31 }\mid p=2/3) & = & \binom{80}{49}(2/3)^{49}(1-2/3)^{31} \approx 0.054 \\
\end{matrix}

咱們能夠看到當\widehat{p}=2/3時,似然函數取得最大值。這就是p的最大似然估計。rem

離散分佈,連續參數空間[編輯]

如今假設例子1中的盒子中有無數個硬幣,對於0\leq p \leq 1中的任何一個p, 都有一個拋出正面機率爲p的硬幣對應,咱們來求其似然函數的最大值:get

\begin{matrix}
\mbox{lik}(\theta) & = & f_D(\mbox{H=49,T=80-49}\mid p) = \binom{80}{49} p^{49}(1-p)^{31} \\
\end{matrix}

其中0\leq p \leq 1. 咱們可使用微分法來求最值。方程兩邊同時對p微分,並使其爲零。

\begin{matrix}
0 & = & \frac{d}{dp} \left( \binom{80}{49} p^{49}(1-p)^{31} \right) \\
  &   & \\
  & \propto & 49p^{48}(1-p)^{31} - 31p^{49}(1-p)^{30} \\
  &   & \\
  & = & p^{48}(1-p)^{30}\left[ 49(1-p) - 31p \right] \\
\end{matrix}
在不一樣比例參數值下一個二項式過程的可能性曲線 t = 3,  n = 10;其最大似然估計值發生在其 衆數並在曲線的最大值處。

其解爲p=0p=1,以及p=49/80.使可能性最大的解顯然是p=49/80(由於p=0p=1這兩個解會使可能性爲零)。所以咱們說最大似然估計值\widehat{p}=49/80.

這個結果很容易通常化。只須要用一個字母t代替49用以表達伯努利試驗中的被觀察數據(即樣本)的「成功」次數,用另外一個字母n表明伯努利試驗的次數便可。使用徹底一樣的方法便可以獲得最大似然估計值:

\widehat{p}=\frac{t}{n}

對於任何成功次數爲t,試驗總數爲n的伯努利試驗。

連續分佈,連續參數空間[編輯]

最多見的連續機率分佈正態分佈,其機率密度函數以下:

f(x\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

如今有n個正態隨機變量的採樣點,要求的是一個這樣的正態分佈,這些採樣點分佈到這個正態分佈可能性最大(也就是機率密度積最大,每一個點更靠近中心點),其n個正態隨機變量的採樣的對應密度函數(假設其獨立並服從同一分佈)爲:

f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^2}}

或:

f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left(-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}\right),

這個分佈有兩個參數:\mu,\sigma^2.有人可能會擔憂兩個參數與上邊的討論的例子不一樣,上邊的例子都只是在一個參數上對可能性進行最大化。實際上,在兩個參數上的求最大值的方法也差很少:只須要分別把可能性\mbox{lik}(\mu,\sigma) = f(x_1,,\ldots,x_n \mid \mu, \sigma^2)在兩個參數上最大化便可。固然這比一個參數麻煩一些,可是一點也不復雜。使用上邊例子一樣的符號,咱們有\theta=(\mu,\sigma^2).

最大化一個似然函數同最大化它的天然對數是等價的。由於天然對數log是一個連續且在似然函數的值域嚴格遞增的上凸函數。[注意:可能性函數(似然函數)的天然對數跟信息熵以及Fisher信息聯繫緊密。]求對數一般可以必定程度上簡化運算,好比在這個例子中能夠看到:

\begin{matrix}
0 & = & \frac{\partial}{\partial \mu} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\
  & = & \frac{\partial}{\partial \mu} \left( \log\left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\
  & = & 0 - \frac{-2n(\bar{x}-\mu)}{2\sigma^2} \\
\end{matrix}

這個方程的解是\widehat{\mu} = \bar{x} = \sum^{n}_{i=1}x_i/n .這的確是這個函數的最大值,由於它是\mu裏頭唯一的一階導數等於零的點而且二階導數嚴格小於零。

同理,咱們對\sigma求導,並使其爲零。

\begin{matrix}
0 & = & \frac{\partial}{\partial \sigma} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\
  & = & \frac{\partial}{\partial \sigma} \left( \frac{n}{2}\log\left( \frac{1}{2\pi\sigma^2} \right) - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\
  & = & -\frac{n}{\sigma} + \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{\sigma^3}
\\
\end{matrix}

這個方程的解是\widehat{\sigma}^2 = \sum_{i=1}^n(x_i-\widehat{\mu})^2/n.

所以,其關於\theta=(\mu,\sigma^2)最大似然估計爲:

\widehat{\theta}=(\widehat{\mu},\widehat{\sigma}^2) = (\bar{x},\sum_{i=1}^n(x_i-\bar{x})^2/n).

性質[編輯]

泛函不變性(Functional invariance)[編輯]

若是\widehat{\theta}\theta的一個最大似然估計,那麼\alpha = g(\theta)的最大似然估計是\widehat{\alpha} = g(\widehat{\theta}).函數g無需是一個一一映射。請參見George Casella與Roger L. Berger所著的Statistical Inference定理Theorem 7.2.10的證實。(中國大陸出版的大部分教材上也能夠找到這個證實。)

漸近線行爲[編輯]

最大似然估計函數在採樣樣本總數趨於無窮的時候達到最小方差(其證實可見於Cramer-Rao lower bound)。當最大似然估計非偏時,等價的,在極限的狀況下咱們能夠稱其有最小的均方差。 對於獨立的觀察來講,最大似然估計函數常常趨於正態分佈

誤差[編輯]

最大似然估計的誤差是很是重要的。考慮這樣一個例子,標有1nn張票放在一個盒子中。從盒子中隨機抽取票。若是n是未知的話,那麼n的最大似然估計值就是抽出的票上標有的n,儘管其指望值的只有(n+1)/2.爲了估計出最高的n值,咱們能肯定的只能是n值不小於抽出來的票上的值。

相關文章
相關標籤/搜索