淺談貝葉斯公式

時間 2019-11-06

標籤淺談貝葉公式简体版

原文原文鏈接

感受這玩意兒挺好玩的，順便填一下之前留下的坑。app

有些內容是抄襲的之前的文章，有些是本身瞎編的。機器學習

warning：博主並不知道什麼叫深度學習/機器學習/AI，只是一個數學愛好者/oier函數

獨立

獨立：對於事件\(A\)和\(B\)，若是\(P(AB)\)=\(P(A)P(B)\)，那麼稱\(A\)和\(B\)是獨立的。學習

所謂獨立，最直觀的理解即兩事件的結果不會相互影響。spa

條件機率

若是\(P(B)>0\)，那麼\(A\)在\(B\)下的條件機率爲
\[P(A|B)=\frac{P(AB)}{P(B)}\]code

特別的，若是\(A\)與\(B\)獨立，那麼\(P(A | B) = P(A)\)blog

同時移項以後咱們也會獲得一個顯然的公式：\(P(AB) = P(A |B) P(B)\)，那麼同時\(P(AB) = P(B | A) P(A)\)事件

關於條件機率一種不錯的理解方式(引自這裏)ip

條件機率\(P(A | B) = \frac{P(AB)}{P(B)}\)就是紫色部分的面積佔右邊整個圓圈的比例rem

貝葉斯公式

對於事件\(A\)和\(B\)，若是\(P(A)>0\)且\(P(B)>0\)，那麼

\[P(A|B)=\frac{P(B\mid A)P(A)}{P(B)}\]

這個公式的證實是顯然的，咱們直接把推導的第二個公式帶入條件機率公式便可

觀察一下這個公式，咱們實際上有四個未知量(左\(1\)右\(3\))，而在題目中每每會告訴咱們\(P(AB)\)或\(P(B | A)P(A)\)，此時咱們還須要求解\(P(B)\)

可是\(P(B)\)的決定因素可能不止與一個事件有關(這裏可能有些抽象，等下會有例子。)

這裏咱們會用到全機率公式

全機率公式

若是樣本空間能夠被劃分爲兩兩互斥的若干部分\(A_1,\ldots,A_k\)，那麼
\[P(B)=\sum_{i=1}^{k}P(B\mid A_i)P(A_i)\]

舉個例子，樣本空間被劃分紅了\(A\)和\(A'\)，此時咱們能夠用全機率公式來計算\(B\)事件發生的機率

\(P(B) = P(B | A) P(A) + P(B | A') P(A')\)

這個公式能夠用來處理\(P(B)\)很差直接計算的狀況

如今回過頭來，咱們把全機率公式迴帶到貝葉斯公式中，咱們就獲得了一種船新的表示形式

若是咱們獲得了樣本空間的一個劃分\(A_1,\ldots,A_k\)，結合全機率公式，對於任意\(1\leq i\leq k\)有

\[P(A_i\mid B) = \frac{P(B\mid A_i)P(A_i)}{\sum_j P(B\mid A_j)P(A_j)} \]

下面來看兩道水題

例題

垃圾郵件識別

(題目是我本身xjb起的)

Descripiton

一個用戶全部郵件分爲兩類：\(A_1\)表明垃圾郵件， \(A_2\)表明非垃圾郵件

根據經驗，\(P(A_1) = 0.7\)， \(P(A_2) = 0.3\)。

令\(B\)表示郵件包含「免費」這一關鍵詞，由歷史郵件得知， \(P(B|A_1) = 0.9\)，

\(P(B|A_2) = 0.01\)（注意：它們之和並不必定等於\(1\)）。

問若收到一封新郵件，包含了「免費」這一關鍵字，那麼它是垃圾郵件的機率是多少

Solution

題目要求的實際是\(P(A_1|B)\)

根據條件機率公式

\[P(A_1|B)=\frac{P(A_1B)}{P(B)}\]

轉換爲貝葉斯公式

\[P(A_1|B)=\frac{P(B|A_1)P(A_1)}{P(B)}\]

將分式底下\(P(B)\)這一項用全機率公式展開

\[P(A_1|B)=\frac{P(B|A_1)P(A_1)}{P(B|A_1)P(A_1)+P(B|A_2)P(A_2)}\]

而後就能夠算了

\[P(A_1|B)=\frac{0.9*0.7}{0.9*0.7+0.01*0.3}\]

\[\approx 0.995260663507109004739336492891 \% \]

好恐怖。。

次品識別問題

(也是我本身xjb起的)

Description

例1設某工廠有甲、乙、丙三個車間，生產同一種產品,已知各車間的產量分別佔全廠產量的\(25 \%, 35 \%, 40 \%\),並且各車間的次品率依次爲\(5 \%,4 \%, 2 \%\).現從待出廠的產品中檢查出一個次品,試判斷它是由甲車間生產的機率

Solution

設\(P(A_i)\)表示是由第\(i\)個車間生產的機率，\(P(B)\)表示生產出次品的機率，直接帶入公式算便可

\(P(A_1 | B) = \frac{P(B | A_1) P(A_1)}{P(B | A_1)P(A_1) + P(B | A_2)P(A_2) + P(B | A_3) P(A_3}\)

\(P(A_1 | B) = \frac{0.25 * 0.05}{0.25 * 0.05 + 0.35 * 0.04 + 0.4 * 0.02} \approx 0.36231\)

總結

經過以上瞎扯不難看出，貝葉斯公式在一類"逆機率"問題中比較經常使用，按理說應該是很是常見的機率只是，可是我還真沒找到幾道正經的OI題qwq

並且本文章中沒有出現「先驗機率」「後驗機率」「似然函數」等字眼，緣由是由於博主太菜了根本不知道怎麼去解釋。。

這篇文章只是從最簡單的理論層面列出了幾個公式，有興趣的大佬能夠深刻學習

參考資料

《淺析信息學競賽中機率論的基礎與應用》——2013年胡淵明國家集訓隊論文

怎樣用非數學語言講解貝葉斯定理(Bayes's theorem)?

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。