對似然函數的理解

時間 2019-12-09

標籤函數理解简体版

原文原文鏈接

一直對貝葉斯里面的似然函數（likelihood function），先驗機率（prior），後驗機率（posterior）理解得不是很好，今天彷彿有了新的理解，記錄一下。函數

看論文的時候讀到這樣一句話：post

原來只關注公式，因此一帶而過。再從新看這個公式前的描述，細思極恐。spa

the likelihood function of the parameters θ = {w,α,β} given the observations D can be factored as..blog

兩個疑問：likelihood function爲何會寫成條件機率的形式？given的明明是D，爲何到後面的公式裏，卻變成了given θ 呢？事件

百度了一下，先貼上wikipedia的解釋：ip

https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0get

下面整理一下本身的理解，借用wikipedia裏面硬幣的例子。io

常說的機率是指給定參數後，預測即將發生的事件的可能性。拿硬幣這個例子來講，咱們已知一枚均勻硬幣的正反面機率分別是0.5，要預測拋兩次硬幣，硬幣都朝上的機率：function

H表明Head，表示頭朝上變量

p(HH | pH = 0.5) = 0.5*0.5 = 0.25.

這種寫法其實有點誤導，後面的這個p實際上是做爲參數存在的，而不是一個隨機變量，所以不能算做是條件機率，更靠譜的寫法應該是 p(HH;p=0.5)。

而似然機率正好與這個過程相反，咱們關注的量再也不是事件的發生機率，而是已知發生了某些事件，咱們但願知道參數應該是多少。

如今咱們已經拋了兩次硬幣，而且知道告終果是兩次頭朝上，這時候，我但願知道這枚硬幣拋出去正面朝上的機率爲0.5的機率是多少？正面朝上的機率爲0.8的機率是多少？

若是咱們但願知道正面朝上機率爲0.5的機率，這個東西就叫作似然函數，能夠說成是對某一個參數的猜測（p=0.5）的機率，這樣表示成(條件)機率就是

L(pH=0.5|HH) = P(HH|pH=0.5) = （另外一種寫法）P(HH;pH=0.5).

爲何能夠寫成這樣？我以爲能夠這樣來想：

似然函數自己也是一種機率，咱們能夠把L(pH=0.5|HH)寫成P(pH=0.5|HH); 而根據貝葉斯公式，P(pH=0.5|HH) = P(pH=0.5,HH)/P(HH)；既然HH是已經發生的事件，理所固然P(HH) = 1,因此：

P(pH=0.5|HH) = P(pH=0.5,HH) = P(HH;pH=0.5).

右邊的這個計算咱們很熟悉了，就是已知頭朝上機率爲0.5，求拋兩次都是H的機率，即0.5*0.5=0.25。

因此，咱們能夠safely獲得:

L(pH=0.5|HH) = P(HH|pH=0.5) = 0.25.

這個0.25的意思是，在已知拋出兩個正面的狀況下，pH = 0.5的機率等於0.25。

再算一下

L(pH=0.6|HH) = P(HH|pH=0.6) = 0.36.

把pH從0~1的取值所獲得的似然函數的曲線畫出來獲得這樣一張圖：

（來自wikipedia）

能夠發現，pH = 1的機率是最大的。

即L(pH = 1|HH) = 1。

那麼最大似然機率的問題也就好理解了。

最大似然機率，就是在已知觀測的數據的前提下，找到使得似然機率最大的參數值。

這就不難理解，在data mining領域，許多求參數的方法最終都歸結爲最大化似然機率的問題。

回到這個硬幣的例子上來，在觀測到HH的狀況下，pH = 1是最合理的（卻未必符合真實狀況，由於數據量太少的緣故）。

先理解這麼多。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。