貝葉斯公式與最大後驗估計(MAP)

1, 頻率派思想

頻率派思想認爲機率乃事情發生的頻率,機率是一固定常量,是固定不變的函數

2, 最大似然估計

假設有100個水果由蘋果和梨混在一塊兒,具體分配比例未知,因而你去隨機抽取10次,抽到蘋果標記爲1, 抽到梨標記爲0,每次標記以後將抽到的水果放回atom

最終統計的結果以下:spa

蘋果 8次,梨2次3d

據此,我能夠推斷出蘋果的比例嗎?xml

最大似然估計看待這個問題的思路是:對象

一、一、0、一、一、0、一、一、一、1blog

每次抽樣都是獨立的隨機過程,抽到蘋果的機率爲 p, 抽到梨的機率爲 1 - p,那麼抽到8次蘋果,2次梨的機率爲:ci

$P_{x} = p^{8}(1 - p)^{2}$數學

爲何我會抽到8次蘋果、2次梨,爲何不是7/3次或其餘的組合形式,這背後確定有股神祕力量(上帝)在給我暗示:你這一次抽到的是8/2的組合,你下一次也極有可能仍是會抽到8/2組合,你每次都會以最高的機率抽到 8/2的組合,由於事實的真相就是8/2組合產品

有了這個思想,咱們能夠求解, 當p = ? 時, 以8/2組合抽取,機率 $P_{x}$ 是最大的(極大似然)

$\begin{equation}
P_{x} = \mathop{\arg\max}_{p} \ \ p^{8}(1-p)^{2}
\end{equation}$

剩下的就是 取對數 -> 求導 -> 求0值, 獲得

p = 80%

再來回顧一下解題的思路: 作實驗以前,p 就是一固定的數值了(雖然具體值是什麼咱們還不知道),經過實驗,咱們獲得了上帝的暗示,採用某種方式(最大似然估計),來找到這個p

3, 貝葉斯思想

貝葉斯派將機率解釋成對事情發生的信心,是一個變量,有很大主觀成分

先來看一下貝葉斯公式的定義:

$p(θ|x) = \frac{p(x|θ)p(θ)}{p(x)} = \frac{p(x|θ)p(θ)}{\sum^{k}_{i = 1}{p(x|θ_{i})p(θ_{i})}}$

只看前半部分:

$p(θ|x) = p(θ)\frac{p(x|θ)}{p(x)}$

貝葉斯的思想過程是這樣的: 

起初我並不知道θ的具體值是多少,同時θ仍是一變量, 它的取值服從某種機率分佈,好比說拋硬幣實驗,假如我說投硬幣正面機率爲0.6(我的主觀臆斷,有出錯的可能), 在說這句話的同時,其實還有隱臺詞: 投硬幣獲得正面的機率θ是一個飄忽不定的值,它最有可能取0.6,其次還可能爲0.四、0.五、0.三、0.7.....,只是取其餘值的可能性比較小,θ(正面的機率)的機率分佈可能近似於一個高斯模型。

如今進行第一次投硬幣,假如結果爲正,從直覺上看,本次投到的結果爲正,將會大大增長我對θ(投幣結果爲正)的信念,具體是怎麼影響的呢?

首先來看$p(x|θ)$, 經過前面的講解,咱們知道這是一個似然函數模型,意爲: 我在用這套θ參數的狀況下,將會以多大機率(likehood)取到當前這個樣本

當θ = 1.0時, $p(x|θ) = θ^{1}(1 - θ)^{0} = 1$

當θ = 0.6時, $p(x|θ) = θ^{1}(1 - θ)^{0} = 0.6$

當θ = 0.5時, $p(x|θ) = θ^{1}(1 - θ)^{0} = 0.5$

當θ = 0.0時, $p(x|θ) = θ^{1}(1 - θ)^{0} = 0$

再來看 $p(x)$,$p(x)$ 表明的是樣本x發生的實際機率, 結合本例來說,這裏$p(x = 1)$表明的是取到一次正面的機率,經過大量實驗,能夠算出 $p(x = 1) = 0.5$(地球人都知道,隨機拋一個硬幣,正面朝上的機率爲0.5)

如今把他們的關係整理一下:

θ

P(θ)

p(x|θ)

P(x)

p(x|θ)/ P(x)

P(θ)*p(x|θ)/ P(x)

1

0

1

0.5

2

0

0.6

3.99

0.6

0.5

1.1

4.389

0.5

2.42

0.5

0.5

1

2.42

0

0

0

0.5

0

0

 

 

 

 

 

 

 

 

若是咱們將第四列用下面形式表示:

$\frac{p(x|θ)}{P(x)} = \frac{likely}{really} = \frac{本參數下的似然機率}{實際出現的機率}  = 信心加強係數$

那麼咱們能夠將貝葉斯公式理解爲:

$已知x前提下對θ的估計 = 對θ的初步估計 * 信心加強係數$

修正倍數 = 1時,表示本參數下的預測機率 = 實際出現的機率,對θ的初步估計比較適中,不須要調整

修正倍數 > 1時,表示本參數下的預測機率 > 實際出現的機率,大大加強了個人信心,對θ的肯定性我以爲能夠再大點

修正倍數 < 1時,表示本參數下的預測機率 < 實際出現的機率,對我是個沉重的打擊,對θ的肯定性我也沒那麼多把握了

結合本實驗:

假設 θ = 1,即拋硬幣爲正的機率爲1(永遠都獲得正面), 可是假設畢竟是假設,我對此也很沒把握,因此p(θ) = 0(或接近0的值),經過一次實驗,觀察到硬幣果真是正,這個實驗結果增長了我對θ = 1(正的機率爲1)的信念,加強係數爲2

假設 θ = 0.6,對此我有很大把握,因此p(θ) = 3.99,因而我用θ = 0.6這一套參數去作了一個似然估計,發現似然估計比真實的機率更好(更接近投一次硬幣爲正這個事實),因而乎,我更加堅信θ = 0.6,加強係數爲1.1

假設 θ = 0,對此我又沒多大把握,因此p(θ) = 0(或接近0的值),經過一次實驗,觀察到硬幣是正,我以爲θ = 0(投硬幣爲正機率爲0)更不靠譜了,因而對我原來的把握度,我須要再下降一個檔次,加強係數爲0

如今我進行第二次試驗,再次出現正面爲上的結果

θ

P(θ)

p(x = 1,1|θ)

P(x)

p(x= 1,1|θ)/ P(x)

P(θ)*p(x|θ)/ P(x)

1

0

1

0.25

4

0

0.6

3.99

0.36

0.25

1.44

5.7456

0.5

2.42

0.25

0.25

1

2.42

0

0

0

0.25

0

0

 

 

 

 

 

 

 

 

能夠看到,我對θ = 1的信心是愈來愈大了,對其餘case的信心也有所調整

第三次實驗,拋硬幣獲得反面爲上的結果

θ

P(θ)

p(x = 1,1,0|θ)

P(x)

p(x= 1,1,0|θ)/ P(x)

P(θ)*p(x|θ)/ P(x)

1

0

0

0.125

0

0

0.6

3.99

0.144

0.125

1.152

4.59648

0.5

2.42

0.125

0.125

1

2.42

0

0

0

0.125

0

0

 

 

 

 

 

 

 

 

像這樣咱們能夠重複作100次實驗,假設獲得正的次數爲51次,反的次數爲49次

θ

P(θ)

p(x|θ)

P(x)

p(x|θ)/ P(x)

P(θ)*p(x|θ)/ P(x)

1

0

0

$0.5^{51}0.5^{49}$

0

0

0.6

3.99

$0.6^{51}0.4^{49}$

$0.5^{51}0.5^{49}$

0.195

0.777

0.5

2.42

$0.5^{51}0.5^{49}$

$0.5^{51}0.5^{49}$

1

2.42

0

0

0

$0.5^{51}0.5^{49}$

0

0

 

 

 

 

 

 

 

 

隨着樣本的增多,對$p(θ|x)$會愈來愈集中,且最終的結果與實驗數據保持一致(θ = 0.5附近)

通過100次拋幣實驗後的後驗機率分佈圖如上所示,最大機率大概在 θ = 0.53 的地方取得

如今來看一個問題:在咱們不斷嘗試調整θ的過程當中,列表其餘項都會跟着改變,惟獨p(x)那一列不會改變,這裏須要用頻率派的惟物主義觀點來解釋,結合本實驗,p(x)表明取到當前實驗數據的機率大小,這是客觀事實,只能經過大量實驗統計或者借用上帝視角把它算出來(沒錯,我就是做弊了)

既然p(x)是固定不變的值,那麼咱們就能夠獲得下面結論:

$p(θ|x) ∝ p(θ)p(x|θ)$

這是理解最大後驗估計(MAP)的關鍵

再來看貝葉斯思想的另一個例子:

一機器在良好狀態生產合格產品概率是 90%,在故障狀態生產合格產品概率是 30%,機器良好的機率是 75%。若一日第一件產品是合格品,那麼此日機器良好的機率是多少?

根據韋恩圖,咱們能夠很方便的解決這個問題

由於題目已經說了,第一件產品是合格品,於是問題的範圍天然就落入了標網格的矩形範圍內

如今要求的是在標網格的矩形範圍內,找出藍色網格的比例(機器良好的機率),剩下的就是求矩形面積之比了

對應的公式模型就是

$p(θ|x) = \frac{p(x|θ)p(θ)}{\sum^{k}_{i = 1}{p(x|θ_{i})p(θ_{i})}}$

這個模型又該怎麼理解呢?結合本實例:

p(x|θ)p(θ)做爲一個總體來看,它在本例中表示的意思就是: 咱們如今關注於機器良好的狀況,機器良好且生產良品機率爲:

p(x|θ)p(θ) = 75% × 90% = 0.675

第一件產品是合格品,即 x = 合格

咱們分析這個合格的來源,它有可能來自良好機器(75%)生產的(90%),也有可能來自故障機器(25%)生產的(30%),那麼

p(x) = 75% × 90% + 25%  × 30% = 0,75

二者相除的結果:

p(θ|x)  = 0.9

觀察這個過程,能夠看到分子表達式是分母的一部分,相除可解釋爲求比例,致使產品合格的緣由有多種,P(良好|合格)的意思是拿出來的是一件合格品,這件合格品是良好機器作出來的概率(良好機器生產合格品在整個合格品中的比例)。

$P(良好|合格) = \frac{P(良好)P(合格|良好)}{P(良好)P(合格|良好) + P(故障)P(合格|故障)}$

經過這種模型能夠很輕易從另外一個角度解釋後驗機率p(θ|x),若是偏要借用模板一的方法來理解,過程是這樣:

最開始,我以爲機器良好的機率是75%,機器狀態的機率分佈以下所示:

在相應狀態,生產良品的機率(似然)以下:

注意這裏的 θ = 機器狀態,θ可能的取值只有故障、良好兩種狀態。如今我作了一個實驗,發現是良品,因而我對機器是良好的信息將會有所調整:

$p(θ|x) = p(initial)\frac{p(likely)}{p(really)} = 75\%\frac{75\% × 90\%}{75\% × 90\% + 25\% × 30\%} = 0.9$

注意拋硬幣實驗中的 θ = 拋硬幣爲正的機率,是一個連續變量

機器生產實驗的 θ =  機器狀態,要麼是良好,要麼是故障,是一個離散變量

4, 最大後驗估計(MAP)

有了前面對貝葉斯思想的描述,咱們能夠很容易理解最大後驗估計(MAP)

θ是一個連續或離散的變量

p(θ|x)表示我取到了一個數值爲x的樣本

取$θ = θ_{1}$時,我將會以$p(x|θ_{1})$取到該樣本,以這種方式取到樣本x的機率佔全部可能性p(x)的比例爲$p(θ_{1}|x)$

取$θ = θ_{2}$時,我將會以$p(x|θ_{2})$取到該樣本,以這種方式取到樣本x的機率佔全部可能性p(x)的比例爲$p(θ_{2}|x)$

......................

因而我就想,這個θ究竟是多少呢?我知道θ是隨時在變的,我不可能捕捉到它的確切數值,但我能夠猜出它最有可能的值,理由是:

我拿到了一組樣本x,我以爲這確定不是一種偶然,我以這種方式拿到樣本x的機率必定是全部可能性p(x)中最大的,用數學符號簡化一下就是:$p(x|θ)p(θ)$是$p(x)$中最大的,即$p(θ|x)$最大,反過來講,我知道了$p(θ|x)$的最大值,我就知道了θ最可能的取值,以這種思路求θ的過程就稱爲最大後驗估計(MAP)

$\mathop{\arg\max}_{θ} p(θ|x) = \mathop{\arg\max}_{θ} \frac{p(x|θ)p(θ)}{p(x)} = \mathop{\arg\max}_{θ} p(x|θ)p(θ)$

其中: $p(θ|x) ∝ p(θ)p(x|θ)$

能夠看出,最大後驗估計與最大似然估計的思想方法仍是存在很大的類似性的,不一樣的是:

最大似然估計是根據數據直接直接對θ進行估計

最大後驗估計是在對θ進行估計以前,強加了一個可能性因素p(θ)

至於樣本x的機率p(x),這是個一個客觀存在(只有上帝知道,或作實驗取逼近)的東西,有它沒它對估計值沒有影響

實際上,p(θ) = const是,最大似然與最大後驗估計的結果就是一致的,緣由是,我不知道 θ 的值爲多少,我也不妄加揣測,我認爲它的可能性都是相同的,這樣,我估計和沒估計其實沒什麼差異(就比如某經濟學家說明天股市可能大漲,也存在下跌的空間,那說了等於沒說嘛)。

另外,p(θ)帶有極強的主觀臆斷,既然是主觀的,那就有可能犯錯,若是我犯錯了怎麼辦呢,解決辦法就是大量實驗,好比剛纔的投幣實驗,雖然我先前對p(θ) = 0.6的估計是一個錯誤值,可是經過大量實驗,會對個人估計值進行修正,最終與最大似然估計值接近

若是有一個執拗的貝葉斯機率論者堅持認爲 

$f(x)=
\begin{cases}
0,&\quad \text{θ =1}\\
1,&\quad \text{θ != 1}
\end{cases}$

那無論怎麼作實驗都沒招了~

5, 問題與探討

關於貝葉斯思想與最大後驗估計,我講的就這麼多,在理解貝葉斯的過程當中,我不少次掉進了慣性思惟的坑,經過不斷思考對比,有些我已經找到問題的答案,有些尚未,如今拿出來給你們分享,有不少只是個人我的看法,不必定正確,但願你們糾正。

第一個問題,網上有不少都用下面模型來描述貝葉斯思想:

$p(癌症|陽性) = \frac{p(癌症)p(陽性|癌症)}{p(癌症)p(陽性|癌症) + p(非癌症)p(陽性|非癌症)}$

直接上,咱們以爲檢查出陽性的人基本上就完蛋了,可是經過貝葉斯分析,知道事實並非這樣的,同時咱們還知道了其中的緣由:

這裏,我有一個疑惑,講述最大後驗估計時,咱們說分母 p(x)對估計的結果不會形成影響,可是這裏的分母確確實實影響了咱們的判斷,何解?

我以爲這個疑問的產生主要是混淆了貝葉斯公式與最大後驗的研究對象。

貝葉斯公式說:我給你一組實驗數據x(陽性), 你給我找出條件下θ(癌症)的機率p(θ|x)

最大後驗估計說:我給你一組實驗數據x(陽性),你給我猜一猜θ究竟是得癌症仍是未得癌症的概率大,即取p(θ|x)最大者

貝葉斯公式研究的對象是p(θ|x),這個是跟分母有關的

最大後驗估計研究的對象是θ,這個跟分母是沒有關係的

爲何檢查出陽性,人們總會得出得癌症的錯覺呢?

我以爲這是一個比較有意思的心理問題,慣性思惟的思考過程是這樣的:得癌症通常都是能檢查出陽性的,那反過來,檢查出陽性那就是的癌症了

思惟上的侷限性限制了咱們對問題的判斷,實際上生活中咱們會常常犯這樣的錯誤

孩子考試很差,咱們是否是會常常責怪孩子不努力,而不反思是否是本身沒有好的引導,老師沒有教好,或者這個東西根本不是小孩的興趣方向

女友吵架了,咱們是否是常常會以爲她脾氣很差,而不想是否是本身對她不關心,或者最近壓力太大了?

。。。。。。。。

 第二個問題,機器生產實驗中,題目說p(良好) = 75%,按照貝葉斯公式的理解,這裏不該該是一個帶有主觀臆斷的先驗機率嗎?怎麼是一固定值了?並且分母不是作實驗作出來的嗎?這裏怎麼直接算出來了?

其實,這裏說機器良好的機率爲75%(p(θ) = 75%),就是借用了上帝視角的說法,分母也是做弊算出來的(對比拋硬幣實驗,若是我一開始就開啓上帝視角,那麼正面朝上的機率分佈p(θ)將是以0.5爲中心,無窮大的脈衝,這樣,作不作實驗,都不會影響我對θ取值的信心了)。

 

第三個問題,拋硬幣模型與機器生產機率模型的對比:

機器良好/故障   —— 硬幣正/反

抽檢結果獲得合格 —— 隨機拋出,獲得正面

按照這種對應方式,他們應該是處於同一個模型的問題,爲何一個是離散問題,一個是連續問題?

如今假如使用離散模型來分析拋硬幣實驗:

分析在不一樣朝向下的似然機率:

二者相乘,會是一種什麼結果?

若是這都還能接受,那麼我再增長一次實驗, 樣本 x = 正面、正面、反面,這樣在給定 x 的前提下, 不論θ = 正,仍是θ = 反, 似然機率 p(x|θ) 都只能爲0了(假設硬幣是正,是不可能獲得x = 反的樣本的),究竟是哪裏搞錯了?

貝葉斯思想是一種思惟模式——由結果找緣由,咱們畫後驗機率p(θ|x)的分佈圖時,橫軸始終是緣由θ,縱軸始終是因果關係的比重,問題是,你選的緣由是對的嗎?或者你選擇的緣由會致使這種結果嗎?

好比剛纔的硬幣實驗,個人緣由 = 硬幣爲正,會致使 x = 正、正、反的結果嗎?

明白了這個問題,咱們再討論一下如何選擇正確的結果~

結合拋硬幣的實驗: 咱們獲得了一個樣本 x = 正,爲何會產生這個數據,由於拋硬幣有時候會獲得正面,有時候會出現反面,」有時候」這個詞對應的就是機率

第四個問題,咱們描述拋硬幣實驗的問題時,可算到先驗機率p(θ) = 3.99這樣的數據,起初我還納悶,機率不是一個0~1之間的小數嗎,正面會有3.99這樣的機率。

這又是慣性思惟的一個反例,機率這東西實際上是做用於離散變量上的一個名詞,當θ爲連續變量時,實際上是不該該用 θ = 0.6 的機率這個說法來稱呼的,翻機率論的書籍咱們知道,連續隨機變量在某一點處的機率實際上是0的, p(θ) = 3.99更確切的解釋應該是θ = 0.6處的機率密度爲3.99。

因此下面纔是連續變量形式的貝葉斯公式模型的正確形式:

$π(θ|x) = \frac{p(x|θ)π(θ)}{\int{p(x|θ)π(θ)d(θ)}}$

 

 --------------------------------------------------------------------------------------------------------------------------------------------------------------------------

                                                                                                                                                                                路漫漫其修遠兮,吾將上下而求索

相關文章
相關標籤/搜索