機器學習基礎系列--先驗機率 後驗機率 似然函數 最大似然估計(MLE) 最大後驗機率(MAE) 以及貝葉斯公式的理解

機器學習基礎

1. 機率和統計

機率(probabilty)和統計(statistics)看似兩個相近的概念,其實研究的問題恰好相反。
顧名思義:網絡

  • 機率研究的問題是,已知一個模型和參數,怎麼去預測這個模型產生的結果的特性(例如均值,方差,協方差等等)。
  • 統計研究的問題則相反。統計是,有一堆數據,要利用這堆數據去預測模型和參數。在實際研究中,也是經過觀察數據,推測模型是高斯分佈的、指數分佈的、拉普拉斯分佈的等,而後,能夠進一步研究,推測模型參數。

一句話總結:機率是已知模型和參數,推數據。統計是已知數據,推模型和參數。機器學習

2. 先驗機率(由歷史求因

百度百科定義:先驗機率(prior probability)是指根據以往經驗和分析獲得的機率,如全機率公式,它每每做爲"由因求果"問題中的"因"出現的機率。
維基百科定義: 在貝葉斯統計中,某一不肯定量p的先驗機率分佈是在考慮"觀測數據"前,能表達p不肯定性的機率分佈。函數

能夠看到兩者定義有一個共同點,即先驗機率是不依靠觀測數據的機率分佈,也就是與其餘因素獨立的分佈。因此能夠用表示。學習

\[P(θ) \tag{1} \]

先驗機率僅僅依賴於主觀上的經驗估計,也就是事先根據已有的知識的推斷,spa

3. 後驗機率(知果求因

維基百科定義: 在貝葉斯統計中,一個隨機事件或者一個不肯定事件的後驗機率是在考慮和給出相關證據或數據後所獲得的條件機率。一樣,後驗機率分佈是一個未知量(視爲隨機變量)基於試驗和調查後獲得的機率分佈。.net

簡單的理解就是這個機率須要觀測數據才能獲得,例如咱們須要對一個神經網絡建模,咱們須要基於給定的數據集X才能獲得網絡參數θ的分佈,因此後驗機率表示爲blog

\[P(θ|X) \tag{2} \]

4. 似然函數(由因求果

百度百科定義: 統計學中,似然函數是一種關於統計模型參數的函數。給定輸出x時,關於參數\(θ\)的似然函數\(L(θ|x)\)(在數值上)等於給定參數\(θ\)後變量\(X\)的機率:$$L(θ|x)=P(X=x|θ)$$。
維基百科定義: 在數理統計學中,似然函數是一種關於統計模型中的參數的函數,表示模型參數中的似然性。事件

\[L(θ|x)=P(X=x|θ) \tag{3} \]

似然機率很好理解,就是說咱們如今有一堆數據,如今須要構建一組參數對這些數據建模,以使得模型可以儘量地擬合這些數據。因此咱們要作的就是從不少組參數中選出一組使得模型對數據的擬合程度最高,因此也經常說最大似然機率,即 \(\mathop {argmax}_{θ}P(X|θ)\)get

5. 有趣的野史--貝葉斯和似然之爭-最大似然機率(MLE)-最大後驗機率(MAE)-貝葉斯公式

極大似然估計和貝葉斯估計分別表明了頻率派和貝葉斯派的觀點。頻率派認爲,參數是客觀存在的,只是未知而矣。所以,頻率派最關心極大似然函數,只要參數求出來了,給定自變量X,Y也就固定了,極大似然估計以下所示:it

\[θ_{MLE}=argmax_{θ}P(X|θ) \tag{4} \]

X表示訓練數據集,θ是模型參數

相反的,貝葉斯派認爲參數也是隨機的,和通常隨機變量沒有本質區別,正是由於參數不能固定,當給定一個輸入x後,咱們不能用一個肯定的y表示輸出結果,必須用一個機率的方式表達出來,因此貝葉斯學派的預測值是一個指望值,以下所示:

\[E[y|x]=∫P(y|x,θ)P(θ|X)dθ \tag{5} \]

其中X表示輸入訓練數據集,y表示輸出,θ 是模型參數

該公式稱爲全貝葉斯預測。如今的問題是如何求 p(θ|X) (後驗機率),根據貝葉斯公式咱們有:

\[P(θ|X)=\frac{P(X|θ)P(θ)}{P(X)}=\frac{P(X|θ)P(θ)}{∫p(X|θ)p(θ)dθ} \tag{6} \]

惋惜的是,上面的後驗機率一般是很難計算的,由於要對全部的參數進行積分,不能找到一個典型的閉合解(解析解)。在這種狀況下,咱們採用了一種近似的方法求後驗機率,這就是最大後驗機率

\[θ_{MAP}=argmax_θP(X|θ)P(θ) \tag{7} \]

最大後驗機率和極大似然估計很像,只是多了一項先驗分佈\(P(\theta)\),它體現了貝葉斯認爲參數也是隨機變量的觀點,在實際運算中一般經過超參數給出先驗分佈。

從以上能夠看出,

  • 一方面,極大似然估計和最大後驗機率都是參數的點估計。在頻率學派中,參數固定了,預測值也就固定了。最大後驗機率是貝葉斯學派的一種近似手段,由於徹底貝葉斯估計不必定可行。
  • 另外一方面,最大後驗機率能夠看做是對先驗和MLE的一種折中,若是數據量足夠大,最大後驗機率和最大似然估計趨向於一致,這是由於當數據量很大時,先驗機率趨向於均勻分佈。若是數據爲0,最大後驗僅由先驗決定。

貝葉斯估計假設將待估計的參數當作是符合某種先驗機率分佈的隨機變量,而不是肯定數值。在樣本分佈上,計算參數的全部狀況並經過計算參數的指望,獲得後驗機率密度。
極大似然估計是將參數\(\theta\)做爲一個肯定值。

總結:先驗機率 後驗機率以及似然函數的關係

先驗機率: \(P(θ)\)
後驗機率: \(P(θ|X)\)
似然機率: \(P(X|θ)\)
它們三者存在這樣的關係:

\[P(θ|X)=\frac{P(X|θ)P(θ)}{P(X)} \tag{8} \]

通常而言數據\(P(X)\)的分佈是知道的,因此有

\[P(θ|X)∝P(X|θ)P(θ) \]

此外,當參數\(θ\)是均勻分佈時,後驗機率和似然機率成正比,後驗機率正比於先驗機率乘以似然函數即:

\[P(θ|X)∝P(X|θ) \]

參考文獻:
一個例子搞清楚(先驗分佈/後驗分佈/似然估計)轉載詳細介紹幾個概念之間的因果關係,簡單易懂。
先驗機率,後驗機率,似然機率,條件機率,貝葉斯,最大似然
機率論:先驗與後驗與似然

相關文章
相關標籤/搜索