極大似然小結

在機器學習中,咱們常常要利用極大似然法近似數據總體的分佈,本篇文章經過介紹極大似然法及其一些性質,旨在深刻淺出地解釋清楚極大似然法。機器學習

0. 貝葉斯機率

首先看一下經典的貝葉斯公式:函數

$$ p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)} $$post

其中,$p(Y)$稱爲先驗機率($prior$),即根據先驗知識得出的關於變量$Y$的分佈,$p(X|Y)$稱爲似然函數($likelihood$),$p(X)$爲變量$X$的機率,$p(Y|X)$稱之爲條件機率(給定變量$X$的狀況下$Y$的機率,$posterior$,後驗機率)。學習

1. 似然函數

似然,便可能性;顧名思義,則似然函數就是關於可能性的函數了。在統計學中,它表示了模型參數的似然性,即做爲統計模型中參數的函數。通常形式以下:事件

$$ L(\omega)=p(D | \omega) = p(x_1, x_2, \cdots ,x_n| \omega) $$ip

其中,$D$表示樣本集$\{x_1,x_2,\cdots, x_n\}$,  $\omega$表示參數向量。get

似然函數表示了在不一樣的參數向量$\omega$下,觀測數據出現的可能性的大小,它是參數向量$\omega$的函數。在某種意義上,咱們能夠認爲其是條件機率的逆反$^{[1]}$。博客

在這裏利用Wikipedia$^{[1]}$中的例子簡要說明一下似然函數,同時也引出極大似然估計。數學

考慮優質一枚硬幣的實驗,一般來講,咱們的硬幣都是「公平」(質地均勻)的,即正面向上(Head)的機率$p_H=0.5$,由此機率咱們能夠知道投擲若干次後各類結果出現的可能性(機率,或然性)。it

例如,投擲硬幣兩次,兩次都爲上的機率爲0.25,利用條件機率表示,即:

$$ P(HH|p_h=0.5)=0.5^2=0.25 $$

若是一個硬幣並不是質地均勻,那麼它多是一枚「非公平」的。在統計學中,咱們關注的是已知一系列投擲的結果時,關於硬幣投擲時正面朝上的可能性的信息。咱們能夠創建一個統計模型:假設硬幣投出時會有$p_H$的機率正面朝上,則有$1-p_H$的機率反面朝上。這時經過觀察已發生的兩次投擲,條件機率能夠改寫成似然函數:

$$ L(p_H)=P(HH|p_H=0.5)=0.25 $$

也就是說,對於取定的似然函數,在觀測到兩次投擲都是正面朝上時,$p_H$的似然性是0.25。注意,反之並不成立,即當似然函數爲0.25時,不能推論出$p_H=0.25$

若是考慮$p_H=0.6$,那似然函數也會改變:

$$ L(p_H)=P(HH|p_H=0.6)=0.36 $$

如圖所示,注意到似然函數的值變大了。這說明,若是參數$p_H$取值變成0.6的話,結果觀測到連續兩次正面朝上的機率比假設$p_H=0.5$時更大,也就是說,參數$p_H$取0.6要比取成0.5更有說服力,更爲"合理"。

<img src="LikelihoodFunctionAfterHH.png" alt="img" style="zoom:50%;" />

總之,似然函數的重要性不是它的具體取值,而是當參數變化時,函數到底變小仍是變大

對同一個似然函數,其所表明的模型中,某項參數值具備多種可能,但若是存在一個參數值,使得它的函數值最愛的話,那麼這個值就是這項參數最爲「合理」的參數值。

在這個例子中,$p_H$取1時,似然函數達到最大值。也便是,當連續觀測到兩次正面朝上時,假設硬幣投擲時正面朝上的機率爲1是最合理的。

在上述引用中,咱們看到了一個極端的結論,即將來全部的投擲都會是正面向上,這是頻率派觀點下使用普遍的一種方法,即極大似然法。在上面的觀點中(頻率派),$\omega$被認爲是一個固定的參數,它的值經過估計來肯定。可是在貝葉斯派觀點中,只有一個數據集$D$(即實際觀測到的數據集),參數的不肯定性經過$\omega$的機率分佈來表達。貝葉斯的觀點是對先驗機率的包含是很天然的事情,包含先驗機率的貝葉斯方法將不會獲得上述的極端結論。

另外還有兩點須要注意,第一,似然函數不是$\omega$的機率分佈,關於$\omega$的積分並不必定等於1;第二,似然$\ne$機率,機率(或然性)用於在已知一些參數的狀況下預測接下來的結果,似然性則是在已知某些結果時,對有關參數進行估值。關於第二點,舉個例子,若是我有一枚硬幣,若是是質地均勻的(已知參數),那麼它出現正面朝上的機率爲0.5(結果);一樣地,若是一枚硬幣,我拋了100次,正面朝上52次(結果),那麼我認爲硬幣十有八九是質地均勻的(估計參數)。

2. 極大似然估計(maximum likelihood estimation, MLE)

瞭解了似然函數,那麼極大似然估計是什麼就很好理解了,它是一種用來估計一個機率模型參數的方法。根據公式(2),咱們一旦得到一個數據集$D$,那咱們就能求得一個關於$\omega$的估計,極大似然估計會尋找一個最可能的值(此處的多是最可能的$\omega$,這個$\omega$可使出現採樣$D$的可能性最大化)。

從數學上來說,咱們能夠在$\omega$的全部取值中,尋找一個值使得似然函數達到最大值,這種估計方法稱之爲極大似然估計。極大似然估計是樣本不變時,關於$\omega$的函數。極大似然估計不必定存在,也不必定惟一。

在第1節中預測硬幣的質地$\omega$,是關於極大似然估計的一個經典例子。其餘例子能夠查看參考文獻$^{[2]}$。

如今咱們看一下極大似然估計在正態分佈中的應用:

如今假定咱們有一個觀測的數據集$\mathbf{x}=(x_1,\cdots,x_N)^T$,表示標量變量$x$的N次觀測。咱們假定各次觀測是獨立地從高斯分佈中抽取,分佈的均值$\mu$和方差$\sigma^2$未知,咱們想根據數據集來肯定這些參數。兩個獨立事件的聯合機率能夠由各個事件的邊緣機率的乘積獲得。咱們的數據集$\mathbf{x}$是獨立同分布的,所以給定$\mu$和$\sigma^2$,咱們能夠給出高斯分佈的似然函數:

$$ p(\mathbf{x}|\mu,\sigma^2)=\prod_{n=1}^{N}\mathcal{N}(x_n|\mu,\sigma^2) $$

爲了簡化分析和有助於數值運算,咱們取似然函數的對數(最大化對數似然等價於最大化似然函數,很容易證實):

$$ ln(\mathbf x|\mu,\sigma^2)=-\frac {1} {2\sigma^2} \sum_{n=1}^{N}(x_n-\mu)^2-\frac {N}{2}ln\sigma^2-\frac{N}{2}ln(2\pi) $$

關於$\mu$,最大化對數似然函數,獲得$\mu$的最大似然解:

$$ \mu_{ML}=\frac {1}{N} \sum_{n=1}^{N}x_n $$

可看到解爲樣本均值。同理,方差$\sigma^2$的最大似然解爲:

$$ \sigma_{ML}^2=\frac {1}{N} \sum_{n=1}^{N}(x_n-\mu_{ML})^2 $$

由此完成了正態分佈的極大似然估計。

3. 極大似然的有偏性

極大似然估計方法求解參數有必定侷限性$^{[3]}$,極大似然法除了會得出第1節中關於硬幣的極端狀況外,還會出現一種狀況,有偏估計,就是指望$\ne$理想值。最大似然方法會系統化地低估分佈的方差。下面進行證實:

均值的估計$\mu_{ML}$的指望$E[\mu_{ML}]$爲:

$$ E(\mu_{ML})=E(\frac{1}{N} \sum_{n=1}^{N}x_n)=\frac {1}{N}E({\sum_{n=1}^{N}x_n})=\frac{1}{N}\sum_{n=1}^{N}E(x_n)=\mu $$

方差的估計$\sigma^2$的指望$E[\sigma_{ML}^2]$爲:

$$ E[\sigma_{ML}^2]=E(\frac {1}{N} \sum_{n=1}^{N}(x_n-\mu_{ML})^2)=E(\frac{1}{N}\sum_{n=1}^{N}x_n^2-\mu_{ML}^2)=\frac {1}{N}\sum_{n=1}^{N}E(x_n^2)-E(\mu_{ML}^2) $$

而後求其後兩項,正態分佈的二階矩爲

$$ E(x_n^2)=\mu^2+\sigma^2 $$

$$ E(\mu_{ML}^2)=E((\frac{x_1+x_2+x_3+\cdots+x_n}{n})^2)=\frac{1}{n^2}(n^2\mu^2+n\sigma^2) $$

故:

$$ E[\sigma_{ML}^2]=\frac{n-1}{n}\sigma^2 $$

由此證實了極大似然的有偏性。其中公式(12)和公式(13)的證實可自行參考正態分佈的基礎知識。

在這裏,PRML$^{[3]}$給出了更直觀地解釋,以下圖:

1570894486589

其中,綠色曲線表示真實高斯分佈,數據點是根據此機率分佈生成,三條紅色分別擬合了三個高斯機率分佈,每一個數據集包含了兩個藍色數據點,對三個數據集求平均,很明顯方差被低估了。由於它是相對樣本均值進行測量的,而不是相對真實的均值進行測量

4. 後記

極大似然做爲機器學習中的一種最經常使用方法,深入理解其含義是很是必要且有用的,應該像這對於理解機率論和一些常見的模型有着很大的幫助。固然,極大似然法還有一些性質,如泛函不變性漸行線行爲,限於時間精力和我的水平,沒有給出證實,讀者可自行參考維基百科$^{[2]}$。文章中大部份內容爲總結和摘抄,共勉。

參考文獻:

  1. https://zh.wikipedia.org/wiki...
  2. https://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1
  3. Pattern Recognition and Machine Learning 》(即PRML)
  4. 《Theory of Point Estimation》
  5. https://www.zhihu.com/questio...
本文由博客一文多發平臺 OpenWrite 發佈!
相關文章
相關標籤/搜索