機器學習數學複習 - 1.機率論基礎

機率相關

從骰子實驗引出的各類機率概念

1.投骰子,出現點數爲 6 的機率 $$\frac{1}{6}$$. 投骰子,已知出現點數爲偶數,出現點數爲 6 的機率則是 $$\frac{1}{3}$$,這個機率即 條件機率spa

2.條件機率爲:假設咱們知道 A 事件已經發生,在此基礎上咱們想知道 B 事件發生的機率,這個機率爲條件機率,記做 $$P(B|A)$$事件

3.古典機率模型:假設一個實驗,有 $$\Omega$$ 個等可能性的結果,事件 A 包含其中 $$X$$ 個結果,事件 B 包含其中 $$Y$$ 個結果,$$Z$$ 表明其中交叉的事件:rem

image

事件 A 發生的機率:$$P(A) = \frac{X}{\Omega}$$;事件 B 發生的機率:$$P(B) = \frac{Y}{\Omega}$$;事件 A、B 都發生的機率:$$P(AB) = \frac{Z}{\Omega}$$若是事件 A 已經發生,那麼事件 B 也發生的機率是 $$P(B|A) = \frac{Z}{X}$$,將公式展開: 這個公式就是條件機率公式it

$$ P(B|A) = \frac{\frac{Z}{\Omega}}{\frac{X}{\Omega}}= \frac{P(AB)}{P(A)} $$table

4.若是條件機率 $$P(B|A)$$ 大於 $$P(B)$$,表明事件 A 的發生會促進事件 B 的發生,例如上面投骰子的例子。還有能夠看下圖,自己 $$P(B)$$ 的機率是比較小的,在事件 A 已發生的狀況下,因爲相交部分較多,事件 B 發生的機率也提高了:class

image

5.若是條件機率 $$P(B|A)$$ 小於 $$P(B)$$,表明事件 A 不會促進事件 B 的發生,例如事件 A 爲投骰子點數爲偶數,事件 B 爲投骰子點數小於 < 4,事件 A 和 事件 B 發生的機率都爲 $$1/2$$,事件 A、B 同時發生的機率是 $$1/6$$,條件機率 $$P(B|A)$$ 爲 $$1/3$$。還有能夠看下圖,自己 $$P(B)$$ 的機率是比較大的,在事件 A 已發生的狀況下,因爲相交部分較少,事件 B 發生的機率被下降了:基礎

image

6.若是條件機率 $$P(B|A)$$ 等於 0,表明事件 A 與事件 B 徹底不相交,即事件 A 發生則事件 B 必定不會發生,事件 A 與事件 B 是不相容事件,或者是互斥事件。以下圖所示:im

image

7.還有可能條件機率 $$P(B|A)$$ 等於 $$P(B)$$,在這種狀況下其實就是事件 A、B 的發生互不相關,例若有兩個骰子,事件 A 爲骰子 1 投出點數 6,事件 B 爲骰子 2 投出點數 2,事件 A 和 事件 B 發生的機率都爲 $$1/6$$,那麼事件 A、B 同時發生的機率是 $$\frac{1}{36}$$,條件機率 $$P(B|A)$$ 等於 $$\frac{1}{6}$$,咱們通常稱這種爲獨立事件。以下圖所示:統計

image

全機率公式與骰子實驗驗證

假設有 $$A_1,A_2,...,A_n$$ 這些互斥事件,包含了實驗全部可能的結果:經驗

image

即有$$P(A_1) + P(A_2) + ... + P(A_n) = 1$$。拿剛剛的骰子舉例,其實就是拋一次骰子,點數分別爲 1,2,3,4,5,6.

假設再有一個事件 B,用古典機率表示如圖:

image

事件 B 的機率,能夠經過事件 B 在 $$A_1,A_2,...,A_n$$ 這些互斥事件上的條件機率以及這些事件的機率進行計算,即全機率公式:

$$ 條件:P(A_1) + P(A_2) + ... + P(A_n) = 1 $$

$$ 結果:P(B) = P(B\Omega) = P(BA_1) + P(BA_2) + ... + P(BA_n) = P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + ... + P(A_n)P(B|A_n) $$

例如事件 B 就是投出的骰子爲偶數,$$P(B) = \frac{1}{2}$$,$$P(A_{點數=1})P(B|A_{點數=1}) + P(A_{點數=2})P(B|A_{點數=2}) + P(A_{點數=3})P(B|A_{點數=3}) + P(A_{點數=4})P(B|A_{點數=4}) + P(A_{點數=5})P(B|A_{點數=5}) + P(A_{點數=6})P(B|A_{點數=6}) = \frac{1}{6} * 0 + \frac{1}{6} * 1 + \frac{1}{6} * 0 + \frac{1}{6} * 1 + \frac{1}{6} * 0 + \frac{1}{6} * 1 = \frac{1}{2}$$

全機率公式的使用:足球預測

全機率公式的意義在於:在大多數狀況下,咱們是很難像骰子實驗同樣直接得出事件 B 的機率的,咱們須要限定事件的樣本空間,根據現有樣本抽象出事件 $$A_1,A_2,...,A_n$$,同時統計這些事件上 B 發生的機率,最後得出事件 B 的機率。

舉個例子即推測本次歐洲盃英國隊對陣德國隊,英國隊勝利的機率,咱們能夠經過歷史比賽數據(例如近幾屆歐洲盃比賽數據,以及兩隊對陣比賽數據)估算出英國隊進球數爲 0,1,2,3,4,5... 的機率,德國隊進球數爲 0,1,2,3,4,5... 的機率,其中英國隊進球數大於德國隊即英國隊勝利的機率。這就是全機率公式的一種應用。

由因推果與由果推因

全機率公式就是由因推果,一個典型的例子就是上面提到本次歐洲盃英國隊對陣德國隊,英國隊勝利的機率的推測。咱們根據以往比賽數據,能夠算出英國隊還有德國隊的平均進球,進球機率通常符合泊松分佈(這個咱們以後還會提到,還會用這個例子詳細分析),根據泊松分佈,咱們能夠能夠得出英國隊還有德國隊進球數 n 的機率,假設英國隊平均進球爲 1.67,德國隊平均進球爲 1.52 則(咱們這裏只考慮到進球數爲 4 的狀況):

球隊 進球數爲 0 進球數爲 1 進球數爲 2 進球數爲 3 進球數爲4
英國隊 0.1882 0.3144 0.2625 0.1461 0.061
德國隊 0.2187 0.3324 0.2527 0.128 0.0486

假設 $$P(A_0)$$ 爲英國隊進球數爲 0 的機率並以此類推:

$$ P(A_0) = 0.1882 $$

$$ P(A_1) = 0.3144 $$

$$ P(A_2) = 0.2625 $$

$$ P(A_3) = 0.1461 $$

$$ P(A_4) = 0.061 $$

假設 $$P(B)$$ 爲英國隊勝利的機率,則根據全機率公式有:

$$ P(B) = P(A_0)P(B|A_0) + P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + P(A_3)P(B|A_3) + P(A_4)P(B|A_4) $$

$$ P(B|A_0) = 0 $$

$$ P(B|A_1) = 德國隊進球爲 0 的機率 = 0.2187 $$

$$ P(B|A_2) = 德國隊進球爲 0,1 的機率 = 0.2187 + 0.3324 = 0.5511 $$

$$ P(B|A_3) = 德國隊進球爲 0,1,2 的機率 = 0.2187 + 0.3324 + 0.2527 = 0.8038 $$

$$ P(B|A_4) = 德國隊進球爲 0,1,2,3 的機率 = 0.2187 + 0.3324 + 0.2527 + 0.128 = 0.9318 $$

$$ P(B) = 0.1882 * 0 + 0.3144 * 0.2187 + 0.2625 * 0.5511 + 0.1461 * 0.8038 + 0.061 * 0.9318 = 0.3877 $$

可是,現實問題中,咱們常常還會遇到由果推因的問題,例如咱們體檢,檢測出來了膽囊息肉,那它到底是否是腫瘤造成的仍是膽固醇造成的或者是其餘緣由呢?這就須要咱們從這個結果推測造成的緣由。這就引出了貝葉斯公式

從足球預測例子理解先驗機率與後驗機率

在提到貝葉斯公式以前,咱們先搞清楚兩個概念,先驗機率後驗機率

先驗機率通常是經過經驗得出,即根據歷史採集到的數據,沒有作任何限制,得出的經驗機率。上面的例子提到的經過歷史比賽數據推測出來的兩隊進球數的機率,就是先驗機率。這時候假設比賽開始,而後發生了一個事件,德國隊後衛失誤被英國隊凱恩先進了一球,這時候咱們須要在這個前提下從新計算兩隊進球數的機率,這個就是後驗機率

先驗機率即徹底根據歷史數據推測出的經驗機率,沒有任何已發生前提狀況下的機率。後驗機率即觀察到某個現象須要對先驗機率進行修正的機率。能夠這樣簡單理解,比賽開始前,估計的機率通常就是先驗機率,比賽開始後,發生紅黃牌,點球,進球,換人等等這些事件後,對機率進行修正後得出的就是後驗機率。

貝葉斯公式與膽囊息肉造成緣由推測

假設有事件 A、B,則:

$$ P(A|B) = \frac{P(AB)}{P(B)} = \frac{P(B|A)P(A)}{P(B)} $$

這就是貝葉斯公式,咱們再結合起來全機率公式,假設咱們事件 $$A_1, A_2, ..., A_n$$ 這些互斥事件構成了樣本空間的全集,則有:

$$ P(A_1|B) = \frac{P(B|A_1)P(A_1)}{P(B)} = \frac{P(B|A_1)P(A_1)}{P(B|A_1)P(A_1) + P(B|A_2)P(A_2) + ... + P(B|A_n)P(A_n)} $$

咱們來用膽囊息肉造成緣由推測舉個例子,假設咱們統計到在某個醫院一百萬個病人樣本中,患有腫瘤的有 8%,其中的 20% 曾經發現膽囊息肉,具備高膽固醇症狀的人有 80%,其中 40% 曾經發現膽囊息肉,剩下其餘的 12% 中 30% 曾經發現膽囊息肉。假設 $$A_1$$ 爲患有腫瘤,$$A_2$$ 爲膽固醇,$$A_3$$ 爲其餘。$$B$$ 爲膽囊息肉。則膽囊息肉爲腫瘤的機率爲:

$$ P(A_1|B) = \frac{P(B|A_1)P(A_1)}{P(B|A_1)P(A_1) + P(B|A_2)P(A_2) + P(B|A_3)P(A_3)} = \frac{0.2 * 0.08}{0.2 * 0.08 + 0.4 * 0.8 + 0.3 * 0.12} = 0.043 $$

相關文章
相關標籤/搜索