葉斯推理的原理(舉例說明)

實例詳解貝葉斯推理的原理併發

貝葉斯推理是一種精確的數據預測方式。在數據沒有指望的那麼多,但卻想毫無遺漏地,全面地獲取預測信息時很是有用。分佈式

 

說起貝葉斯推理時,人們時常會帶着一種敬仰的心情。其實並不是想象中那麼富有魔力,或是神祕。儘管貝葉斯推理背後的數學愈來愈縝密和複雜,但其背後概念仍是很是容易理解。簡言之,貝葉斯推理有助於你們獲得更有力的結論,將其置於已知的答案中。優化

貝葉斯推理理念源自托馬斯貝葉斯。三百年前,他是一位從不循規蹈矩的教會長老院牧師。貝葉斯寫過兩本書,一本關於神學,一本關於機率。他的工做就包括今天著名的貝葉斯定理雛形,自此之後應用於推理問題,以及有根據猜想(educated guessing)術語中。貝葉斯理念如此流行,得益於一位名叫理查·布萊斯牧師的大力推崇。此人意識到這份定理的重要性後,將其優化完善並發表。所以,此定理變得更加準確。也所以,歷史上將貝葉斯定理稱之爲 Bayes-Price法則。spa

 

譯者注:educated guessing 基於(或根據)經驗(或專業知識、手頭資料、事實等)所做的估計(或預測、猜想、意見等).net

影院中的貝葉斯推理blog

 640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 

試想一下,你前往影院觀影,前面觀影的小夥伴門票掉了,此時你想引發他們的注意。此圖是他們的背影圖。你沒法分辨他們的性別,僅僅知道他們留了長頭髮。那你是說,女士打擾一下,仍是說,先生打擾一下。考慮到你對男人和女人髮型的認知,或許你會認爲這位是位女士。(本例很簡單,只存在兩種髮長和性別)隊列

 

如今將上面的情形稍加變化,此人正在排隊準備進入男士休息室。依靠這個額外的信息,或許你會認爲這位是位男士。此例採用常識和背景知識便可完成判斷,無需思考。而貝葉斯推理是此方式的數學實現形式,得益於此,咱們能夠作出更加精確的預測。事件

640?wx_fmt=jpeg

 

咱們爲電影院遇到的困境加上數字。首先假定影院中男女各佔一半,100我的中,50個男人,50個女人。女人中,一半爲長髮,餘下的25人爲短髮。而男人中,48位爲短髮,兩位爲長髮。存在25個長髮女人和2位長髮男人,由此推斷,門票持有者爲女士的可能性很大。rem

 

640?wx_fmt=jpeg

 

 

 

100個在男士休息室外排隊,其中98名男士,2位女士爲陪同。長髮女人和短髮女人依舊對半分,但此處僅僅各佔一種。而男士長髮和短髮的比例依舊保持不變,按照98位男士算,此刻短髮男士有94人,長髮爲4人。考慮到有一位長髮女士和四位長髮男士,此刻最有可能的是持票者爲男士。這是貝葉斯推理原理的具體案例。事先知曉一個重要的信息線索,門票持有者在男士休息室外排隊,能夠幫助咱們作出更好的預測。數學

 

爲了清晰地闡述貝葉斯推理,須要花些時間清晰地定義咱們的理念。不幸的是,這須要用到數學知識。除非不得已,我儘可能避免此過程太過深奧,緊隨我查看更多的小節,一定會從中受益。爲了你們可以創建一個基礎,咱們須要快速地說起四個概念:機率、條件機率、聯合機率以及邊際機率。

 

機率

 

640?wx_fmt=jpeg

一件事發生的機率,等於該事件發生的數目除以全部事件發生的數目。觀影者爲一個女士的機率爲50位女士除以100位觀影者,即0.5 或50%。換做男士亦如此。

 

640?wx_fmt=jpeg

而在男士休息室排列此種情形下,女士機率降至0.02,男士的機率爲0.98。

 

條件機率

 

640?wx_fmt=jpeg

條件機率回答了這樣的問題,假若我知道此人是位女士,其爲長髮的機率是多少?條件機率的計算方式和直接獲得的機率同樣,但它們更像全部例子中知足某個特定條件的子集。本例中,此人爲女士,擁有長髮的人士的條件機率,P(long hair | woman)爲擁有長髮的女士數目,除以女士的總數,其結果爲0.5。不管咱們是否考慮男士休息室外排隊,或整個影院。
640?wx_fmt=jpeg

一樣的道理,此人爲男士,擁有長髮的條件機率,P(long hair | man)爲0.4,無論其是否在隊列中。

 

640?wx_fmt=jpeg

很重要的一點,條件機率P(A | B)並不等同於P(B | A)。好比P(cute | puppy)不一樣於P(puppy | cute)。假若我抱着的是小狗,可愛的機率是很高的。假若我抱着一個可愛的東西,成爲小狗的機率中等偏下。它有多是小貓、小兔子、刺蝟,甚至一個小人。

 

聯合機率

 

640?wx_fmt=jpeg

 

 

聯合機率適合回答這樣的問題,此人爲一個短髮女人的機率爲多少?找出答案須要兩步。首先,咱們先看機率是女人的機率,P(woman)。接着,咱們給出頭髮短人士的機率,考慮到此人爲女士,P(short hair | woman)。經過乘法,進行聯合,給出聯合機率,P(woman with short hair) = P(woman) * P(short hair | woman)。利用此方法,咱們即可計算出咱們已知的機率,全部觀影中P(woman with long hair)爲0.25,而在男士休息室隊列中的P(woman with long hair)爲0.1。不一樣是由於兩個案例中的P(woman)不一樣。


640?wx_fmt=jpeg

 

類似的,觀影者中P(man with long hair) 爲0.02,而在男士休息室隊列中機率爲0.04。
640?wx_fmt=jpeg

和條件機率不一樣,聯合機率和順序無關,P(A and B)等同於P(B and A)。好比,同時擁有牛奶和油炸圈餅的機率,等同於擁有油炸圈餅和牛奶的機率。

 

邊際機率

 640?wx_fmt=jpeg

咱們最後一個基礎之旅爲邊際機率。特別適合回答這樣的問題,擁有長髮人士的機率?爲計算出結果,咱們須累加此事發生的全部機率——即男士留長髮的機率加女士留長髮的機率。加上這兩個機率,即給出全部觀影者P(long hair)的值0.27,而男休息室隊列中的P(long hair)爲0.05。

 

貝葉斯定理

 

如今到了咱們真正關心的部分。咱們想回答這樣的問題,假若咱們知道擁有長髮的人士,那他們是位女士或男士的機率爲?這是一個條件機率,P(man | long hair),爲咱們已知曉的P(long hair | man)逆方式。由於條件機率不可逆,所以,咱們對這個新條件機率知之甚少。

 

幸運的是托馬斯觀察到一些很酷炫的知識能夠幫到咱們。

640?wx_fmt=jpeg

 

根據聯合機率計算規則,咱們給出方程P(man with long hair)和P(long hair and man)。由於聯合機率可逆,所以這兩個方程等價。

 

640?wx_fmt=jpeg

 

藉助一點代數知識,咱們就能解出P(man | long hair)。

 

640?wx_fmt=jpeg

 

表達式採用A和B,替換「man」和「long hair」,因而咱們獲得貝葉斯定理。

 

640?wx_fmt=jpeg

 

 

咱們回到最初,藉助貝葉斯定理,解決電影院門票困境。

 

640?wx_fmt=jpeg

 

首先,須要計算邊際機率P(long hair)。

 

640?wx_fmt=jpeg

 

接着代入數據,計算出長髮中是男士的機率。對於男士休息室隊列中的觀影者而言,P(man | long hair)微微0.8。這讓咱們更加確信一直覺,掉門票的多是一男士。貝葉斯定理抓住了在此情形下的直覺。更重要的是,更重要的是吸納了先驗知識,男士休息室外隊列中男士遠多於女士。借用此先驗知識,更新咱們對一這情形的認識。

 

機率分佈

 

諸如影院困境這樣的例子,很好地解釋了貝葉斯推理的由來,以及做用機制。然而,在數據科學應用領域,此推理經常用於數據解釋。有了咱們測出來的先驗知識,藉助小數據集即可得出更好的結論。在開始細說以前,請先容許我先介紹點別的。就是咱們須要清楚一個機率分佈。

 

此處能夠這樣考慮機率,一壺咖啡正好裝滿一個杯子。假若用一個杯子來裝沒有問題,那不止一個杯子呢,你需考慮如何將這些咖啡分這些杯子中。固然你能夠按照本身的意願,只要將全部咖啡放入某個杯子中。而在電影院,一個杯子或許表明女士或者男士。

640?wx_fmt=jpeg

 

或者咱們用四個杯子表明性別和髮長的全部組合分佈。這兩個案例中,總咖啡數量累加起來爲一杯。

 

640?wx_fmt=jpeg

 

一般,咱們將杯子挨個擺放,看其中的咖啡量就像一個柱狀圖。咖啡就像一種信仰,此機率分佈用於顯示咱們相信某件事情的強烈程度

 

640?wx_fmt=jpeg

 

假設我投了一塊硬幣,而後蓋住它,你會認爲正面和反面朝上的概率是同樣的。

 

640?wx_fmt=jpeg

 

假設我投了一個骰子,而後蓋住它,你會認爲六個面中的每個面朝上的概率是同樣的。

 

640?wx_fmt=jpeg

 

假設我買了一期強力球彩票,你會認爲中獎的可能性微乎其微。投硬幣、投骰子、強力球彩票的結果,均可以視爲收集、測量數據的例子。

 

640?wx_fmt=jpeg

 

毫無心外,你也能夠對其它數據持有某種見解。這裏咱們考慮美國成年人的身高,假若我告訴你,我見過,並測量了某些人的身高,那你對他們身高的見解,或許如上圖所示。此觀點認爲一我的的身高可能介於150和200cm之間,最有可能的是介於180和190cm之間。

 

640?wx_fmt=jpeg

 

此分佈能夠分紅更多的方格,視做將有限的咖啡放入更多的杯子,以期得到一組更加細顆粒度的觀點。

 

640?wx_fmt=jpeg

 

最終虛擬的杯子數量將很是大,以致於這樣的比喻變得不恰當。這樣,分佈變得連續。運用的數學方法可能有點變化,但底層的理念仍是頗有用。此圖代表了你對某一事物認知的機率分佈。

 

感謝大家這麼有耐心!!有了對機率分佈的介紹,咱們即可採用貝葉斯定理進行數據解析了。爲了說明這個,我以我家小狗稱重爲例
640?wx_fmt=jpeg

獸醫領域的貝葉斯推理

 

它叫雅各賓當政,每次咱們去獸醫診所,它在秤上老是各類晃動,所以很難讀取一個準確的數據。獲得一個準確的體重數據很重要,這是由於,假若它的體重有所上升,那麼咱們就得減小其食物的攝入量。它喜歡食物賽過它本身,因此說風險蠻大的。

 

最近一次,在它喪失耐心前,咱們測了三次:13.9鎊,17.5鎊以及14.1鎊。這是針對其所作的標準統計分析。計算這一組數字的均值,標準誤差,標準差,即可獲得小狗當政的準確體重分佈。
640?wx_fmt=jpeg

 

分佈展現了咱們認爲的小狗體重,這是一個均值15.2鎊,標準差1.2鎊的正態分佈。真實得測量如白線所示。不幸的是,這個曲線並不是理想的寬度。儘管這個峯值爲15.2鎊,但機率分佈顯示,在13鎊很容易就到達一個低值,在17鎊到達一個高值。太過寬泛以至沒法作出一個確信的決策。面對如此情形,一般的策略是返回並收集更多的數據,但在一些案例中此法操做性不強,或成本高昂。本例中,小狗當政的(Reign )耐心已經耗盡,這是咱們僅有的測量數據。

 

此時咱們須要貝葉斯定理,幫助咱們處理小規模數據集。在使用定理前,咱們有必要從新回顧一下這個方程,查看每一個術語。

 

640?wx_fmt=gif

 

咱們用「w」 (weight)和 「m」 (measurements)替換「A」 and 「B」 ,以便更清晰地表示咱們如何用此定理。四個術語分別表明此過程的不一樣部分。

 

先驗機率,P(w),表示已有的事物認知。本例中,表示未稱量時,咱們認爲的當政體重w。

 

似然值,P(m | w),表示針對某個具體體重w所測的值m。又叫似然數據。

 

後驗機率,P(w | m),表示稱量後,當政爲某個體重w的機率。固然這是咱們最感興趣的。

 

譯者注:後驗機率,一般狀況下,等於似然值乘以先驗值。是咱們對於世界的內在認知。

 

機率數據,P(m),表示某個數據點被測到的機率。本例中,咱們假定它爲一個常量,且測量自己沒有偏向。

 

對於完美的不可知論者來講,也不是什麼特別糟糕的事情,並且無需對結果作出什麼假設。例如本例中,即使假定當Reign的體重爲13鎊、或1鎊,或1000000 鎊,讓數聽說話。咱們先假定一個均一的先驗機率,即對全部值而言,機率分佈就一常量值。貝葉斯定理即可簡化爲P(w | m) = P(m | w)。
640?wx_fmt=gif

此刻,藉助Reign的每一個可能體重,咱們計算出三個測量的似然值。好比,假若當政的體重爲1000鎊,極端的測量值是不太可能的。然而,假若當政的體重爲14鎊或16鎊。咱們能夠遍歷全部,利用Reign的每個假設體重值,計算出測量的似然值。這即是P(m | w)。得益於這個均一的先驗機率,它等同於後驗機率分佈 P(w | m)。

 

這並不是偶然。經過均值、標準誤差、標準差得來的,很像答案。實際上,它們是同樣的,採用一個均一的先驗機率給出傳統的統計估測結果。峯值所在的曲線位置,均值,15.2鎊也叫體重的極大似然估計(MLE)。

 

即便採用了貝葉斯定理,但依舊離有用的估計很遠。爲此,咱們須要非均一先驗機率。先驗分佈表示未測量情形下對某事物的認知。均一的先驗機率認爲每一個可能的結果都是均等的,一般都很罕見。在測量時,對某些量已有些認識。年齡老是大於零,溫度老是大於-276攝氏度。成年人身高罕有超過8英尺的。某些時候,咱們擁有額外的領域知識,一些值頗有可能出如今其它值中。
640?wx_fmt=jpeg

在Reign的案例中,我確實擁有其它的信息。我知道上次它在獸醫診所稱到的體重是14.2鎊。我還知道它並非特別顯胖或顯瘦,即使個人胳膊對重量不是特別敏感。有鑑於此,它大概重14.2鎊,相差一兩鎊上下。爲此,我選用峯值爲14.2鎊。標準誤差爲0.5鎊的正態分佈。

 

640?wx_fmt=gif

先驗機率已經就緒,咱們重複計算後驗機率。爲此,咱們考慮某一律率,此時Reign體重爲某一特定值,好比17鎊。接着,17鎊這一似然值乘以測量值爲17這一條件機率。接着,對於其它可能的體重,咱們重複這一過程。先驗機率的做用是下降某些機率,擴大另外一些機率。本例中,在區間13-15鎊增長更多的測量值,之外的區間則減小更多的測量值。這與均一先驗機率不一樣,給出一個恰當的機率,當政的真實體重爲17鎊。藉助非均勻的先驗機率,17鎊掉入分佈式的尾部。乘以此機率值使得體重爲17鎊的似然值變低。

 

640?wx_fmt=jpeg

經過計算當政每個可能的體重機率,咱們獲得一個新的後驗機率。後驗機率分佈的峯值也叫最大後驗機率(MAP),本例爲14.1鎊。這和均一先驗機率有明顯的不一樣。此峯值更窄,有助於咱們作出一個更可信的估測。如今來看,小狗當政的體重變化不大,它的體型依舊如前。

 

經過吸取已有的測量認知,咱們能夠作出一個更加準確的估測,其可信度高於其餘方法。這有助於咱們更好地使用小量數據集。先驗機率賦予17.5鎊的測量值是一個比較低的機率。這幾乎等同於反對此偏離正常值的測量值。不一樣於直覺和常識的異常檢測方式,貝葉斯定理有助於咱們採用數學的方式進行異常檢測。

 

另外,假定術語P(m)是均一的,但恰巧咱們知道稱量存在某種程度的偏好,這將反映在P(m)中。若稱量僅輸出某些數字,或返回讀數2.0,佔整個時間的百分之10,或第三次嘗試產生一個隨機測量值,均須要手動修改P(m)以反映這一現象,以便後驗機率更加準確。

 

規避貝葉斯陷阱

 

探究Reign的真實體重體現了貝葉斯的優點。但這也存在某些陷阱。經過一些假設咱們改進了估測,而測量某些事物的目的就是爲了瞭解它。假若咱們假定對某一答案有所瞭解,咱們可能會刪改此數據。馬克·吐溫對強先驗的危害作了簡明地闡述,「將你陷入困境的不是你所不知道的,而是你知道的那些看似正確的東西。」

 

假如採起強先驗假設,當Reign的體重在13與15鎊之間,再假如其真實體重爲12.5鎊,咱們將沒法探測到。先驗認知認爲此結果的機率爲零,不論作多少次測量,低於13鎊的測量值都認爲無效。

 

幸運的是,有一種兩面下注的辦法,能夠規避這種盲目地刪除。針對對於每個結果至少賦予一個小的機率,假若藉助物理領域的一些奇思妙想,當政確實能稱到1000鎊,那咱們收集的測量值也能反映在後驗機率中。這也是正態分佈做爲先驗機率的緣由之一。此分佈集中了咱們對一小撮結果的大多數認識,無論怎麼延展,其尾部再長都不會爲零。

 640?wx_fmt=jpeg

在此,紅桃皇后是一個很好的榜樣:

 

愛麗絲笑道:「試了也沒用,沒人會相信那些不存在的事情。」

 

「我敢說你沒有太多的練習」,女王迴應道,「我年輕的時候,一天中的一個半小時都在閉上眼睛,深呼吸。爲什麼,那是由於有時在早飯前,我已經意識到存在六種不可能了。」來自劉易斯·卡羅爾的《愛麗絲漫遊奇境》

原文:https://blog.csdn.net/FnqTyr45/article/details/78163780 

相關文章
相關標籤/搜索