對似然函數的理解

一直對貝葉斯里面的似然函數(likelihood function),先驗機率(prior),後驗機率(posterior)理解得不是很好,今天彷彿有了新的理解,記錄一下。函數

看論文的時候讀到這樣一句話:post

原來只關注公式,因此一帶而過。再從新看這個公式前的描述,細思極恐。spa

the likelihood function of the parameters θ = {w,α,β} given the observations D can be factored as..blog


兩個疑問:likelihood function爲何會寫成條件機率的形式?given的明明是D,爲何到後面的公式裏,卻變成了given θ 呢?事件

百度了一下,先貼上wikipedia的解釋:ip

https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0get

下面整理一下本身的理解,借用wikipedia裏面硬幣的例子。io

常說的機率是指給定參數後,預測即將發生的事件的可能性。拿硬幣這個例子來講,咱們已知一枚均勻硬幣的正反面機率分別是0.5,要預測拋兩次硬幣,硬幣都朝上的機率:function

H表明Head,表示頭朝上變量

p(HH | pH = 0.5) = 0.5*0.5 = 0.25.

這種寫法其實有點誤導,後面的這個p實際上是做爲參數存在的,而不是一個隨機變量,所以不能算做是條件機率,更靠譜的寫法應該是 p(HH;p=0.5)。

而似然機率正好與這個過程相反,咱們關注的量再也不是事件的發生機率,而是已知發生了某些事件,咱們但願知道參數應該是多少。

如今咱們已經拋了兩次硬幣,而且知道告終果是兩次頭朝上,這時候,我但願知道這枚硬幣拋出去正面朝上的機率爲0.5的機率是多少?正面朝上的機率爲0.8的機率是多少?

若是咱們但願知道正面朝上機率爲0.5的機率,這個東西就叫作似然函數,能夠說成是對某一個參數的猜測(p=0.5)的機率,這樣表示成(條件)機率就是

L(pH=0.5|HH) = P(HH|pH=0.5) = (另外一種寫法)P(HH;pH=0.5).

爲何能夠寫成這樣?我以爲能夠這樣來想:

似然函數自己也是一種機率,咱們能夠把L(pH=0.5|HH)寫成P(pH=0.5|HH); 而根據貝葉斯公式,P(pH=0.5|HH) = P(pH=0.5,HH)/P(HH);既然HH是已經發生的事件,理所固然P(HH) = 1,因此:

P(pH=0.5|HH)  = P(pH=0.5,HH) = P(HH;pH=0.5).

右邊的這個計算咱們很熟悉了,就是已知頭朝上機率爲0.5,求拋兩次都是H的機率,即0.5*0.5=0.25。

因此,咱們能夠safely獲得:

L(pH=0.5|HH) = P(HH|pH=0.5) = 0.25.

這個0.25的意思是,在已知拋出兩個正面的狀況下,pH = 0.5的機率等於0.25。

再算一下

L(pH=0.6|HH) = P(HH|pH=0.6) = 0.36.

把pH從0~1的取值所獲得的似然函數的曲線畫出來獲得這樣一張圖:

(來自wikipedia)

能夠發現,pH = 1的機率是最大的。

即L(pH = 1|HH) = 1。

那麼最大似然機率的問題也就好理解了。

最大似然機率,就是在已知觀測的數據的前提下,找到使得似然機率最大的參數值。

這就不難理解,在data mining領域,許多求參數的方法最終都歸結爲最大化似然機率的問題。

回到這個硬幣的例子上來,在觀測到HH的狀況下,pH = 1是最合理的(卻未必符合真實狀況,由於數據量太少的緣故)。

先理解這麼多。

相關文章
相關標籤/搜索