貝葉斯學習--極大後驗機率假設和極大似然假設

 在機器學習中,一般咱們感興趣的是在給定訓練數據D時,肯定假設空間H中的最佳假設。

所謂最佳假設,一種辦法是把它定義爲在給定數據D以及H中不一樣假設的先驗機率的有關知識條件下的最可能(most probable)假設。機器學習

貝葉斯理論提供了計算這種可能性的一種直接的方法。更精確地講,貝葉斯法則提供了一種計算假設機率的方法,它基於假設的先驗機率、給定假設下觀察到不一樣數據的機率、以及觀察的數據自己。函數

要精確地定義貝葉斯理論,先引入一些記號。post

一、P(h)來表明尚未訓練數據前,假設h擁有的初始機率。P(h)常被稱爲h的先驗機率(prior probability ),它反映了咱們所擁有的關於h是一正確假設的機會的背景知識。若是沒有這一先驗知識,那麼能夠簡單地將每一候選假設賦予相同的先驗機率。學習

二、P(D)表明將要觀察的訓練數據D的先驗機率(換言之,在沒有肯定某一假設成立時,D的機率)。spa

三、P(D|h)表明假設h成立的情形下觀察到數據D的機率。更通常地,咱們使用P(x|y)表明給定yx的機率。.net

在機器學習中,咱們感興趣的是P(h|D),即給定訓練數據Dh成立的機率。get

P(h|D)被稱爲h的後驗機率(posteriorprobability),由於它反映了在看到訓練數據Dh成立的置信度。it

應注意,後驗機率P(h|D)反映了訓練數據D的影響;相反,先驗機率P(h)是獨立於D的。io

貝葉斯法則是貝葉斯學習方法的基礎,由於它提供了從先驗機率P(h)以及P(D)和P(D|h)計算後驗機率P(h|D)的方法。基礎

 

貝葉斯公式

 

直觀可看出,P(h|D)隨着P(h)和P(D|h)的增加而增加。同時也可看出P(h|D)隨P(D)的增長而減小,這是很合理的,由於若是D獨立於h被觀察到的可能性越大,那麼Dh的支持度越小。

極大後驗(maximum a posteriori, MAP)假設:

學習器考慮候選假設集合H並在其中尋找給定數據D時可能性最大的假設hH(或者存在多個這樣的假設時選擇其中之一)這樣的具備最大可能性的假設被稱爲極大後驗(maximum a posteriori, MAP)假設。肯定MAP假設的方法是用貝葉斯公式計算每一個候選假設的後驗機率。

更精確地說當下式成立時,稱hMAP爲—MAP假設:

(在最後一步咱們去掉了P(D),由於它是不依賴於h的常量)

極大似然(maximum likelihood,ML)假設

 

在某些狀況下,可假定H中每一個假設有相同的先驗機率(即對H中任意hihjP(hi)=P(hj))。這時可把上式進一步簡化,只需考慮P(D|h)來尋找極大可能假設。P(D|h)常稱爲給定h時數據D的似然度(likelihood),而使P(D|h)最大的假設被稱爲極大似然(maximum likelihood,ML)假設hML

爲了使上面的討論與機器學習問題相聯繫,咱們把數據D稱做某目標函數的訓練樣例,而把H稱爲候選目標函數空間。

實際上,貝葉斯公式有着更爲廣泛的意義。它一樣能夠很好地用於任意互斥命題的集合H,只要這些命題的機率之和爲1(例如:「天空是蘭色的」和「天空不是蘭色的」)。有時將H做爲包含目標函數的假設空間,而D做爲訓練例集合。其餘一些時候考慮將H看做一些互斥命題的集合,而D爲某種數據。

 

貝葉斯推理的結果很大地依賴於先驗機率,要直接應用方法必須先獲取該值。

相關文章
相關標籤/搜索