從貝葉斯定理到機率分佈:綜述機率論基本定義

本文從最基礎的機率論到各類機率分佈全面梳理了基本的機率知識與概念,這些概念可能會幫助咱們瞭解機器學習或開拓視野。這些概念是數據科學的核心,並常常出如今各類各樣的話題上。重溫基礎知識老是有益的,這樣咱們就能發現之前並未理解的新知識。

簡介

在本系列文章中,我想探討一些統計學上的入門概念,這些概念可能會幫助咱們瞭解機器學習或開拓視野。這些概念是數據科學的核心,並常常出如今各類各樣的話題上。重溫基礎知識老是有益的,這樣咱們就能發現之前並未理解的新知識,因此咱們開始吧。
第一部分將會介紹機率論基礎知識。

機率
咱們已經擁有十分強大的數學工具了,爲何咱們還須要學習機率論?咱們用微積分來處理變化無限小的函數,並計算它們的變化。咱們使用代數來解方程,咱們還有其餘幾十個數學領域來幫助咱們解決幾乎任何一種能夠想到的難題。
難點在於咱們都生活在一個混亂的世界中,多數狀況下沒法準確地測量事物。當咱們研究真實世界的過程時,咱們想了解許多影響實驗結果的隨機事件。不肯定性無處不在,咱們必須馴服它以知足咱們的須要。只有如此,機率論和統計學纔會發揮做用。
現在,這些學科處於人工智能,粒子物理學,社會科學,生物信息學以及平常生活中的中心。
若是咱們要談論統計學,最好先肯定什麼是機率。其實,這個問題沒有絕對的答案。咱們接下來將闡述機率論的各類觀點。
頻率
想象一下,咱們有一枚硬幣,想驗證投擲後正反面朝上頻率是否相同。咱們如何解決這一問題?咱們試着進行一些實驗,若是硬幣正面向上記錄 1,若是反面向上記錄 0。重複投擲 1000 次並記錄 0 和 1 的次數。在咱們進行了一些繁瑣的時間實驗後,咱們獲得了這些結果:600 個正面(1)和 400 反面(0)。若是咱們計算過去正面和反面的頻率,咱們將分別獲得 60%和 40%。這些頻率能夠被解釋爲硬幣出現正面或者反面的機率。這被稱爲頻率化的機率。
條件機率
一般,咱們想知道某些事件發生時其它事件也發生的機率。咱們將事件 B 發生時事件 A 也發生的條件機率寫爲 P(A | B)。如下雨爲例:
  • 打雷時下雨的機率有多大?
  • 晴天時下雨的機率有多大?
從這個歐拉圖,咱們能夠看到 P(Rain | Thunder)= 1 :當咱們看到雷聲時,總會下雨(固然,這不徹底正確,可是咱們在這個例子中保證它成立)。
P(Rain | Sunny)是多少呢?直覺上這個機率很小,可是咱們怎樣才能在數學上作出這個準確的計算呢?條件機率定義爲:
換句話說,咱們用 Rain 且 Sunny 的機率除以 Sunny 的機率。

相依事件與獨立事件
若是一個事件的機率不以任何方式影響另外一個事件,則該事件被稱爲獨立事件。以擲骰子且連續兩次擲得 2 的機率爲例。這些事件是獨立的。咱們能夠這樣表述
可是爲何這個公式可行?首先,咱們將第一次投擲和第二次投擲的事件重命名爲 A 和 B,以消除語義影響,而後將咱們看到的兩次投擲的的聯合機率明確地重寫爲兩次投擲的單獨機率乘積:
如今用 P(A)乘以 P(B)(沒有變化,能夠取消)並從新回顧條件機率的定義:
若是咱們從右到左閱讀上式,咱們會發現 P(A | B) = P(A)。這就意味着事件 A 獨立於事件 B!P(B)也是同樣,獨立事件的解釋就是這樣。

貝葉斯機率論
貝葉斯能夠做爲一種理解機率的替代方法。頻率統計方法假設存在咱們正在尋找的模型參數的一個最佳的具體組合。另外一方面,貝葉斯以機率方式處理參數,並將其視爲隨機變量。在貝葉斯統計中,每一個參數都有本身的機率分佈,它告訴咱們給已有數據的參數有多種可能。數學上能夠寫成
這一切都從一個容許咱們基於先驗知識來計算條件機率的簡單的定理開始:
儘管貝葉斯定理很簡單,但它具備巨大的價值,普遍的應用領域,甚至是貝葉斯統計學的特殊分支。有一個關於貝葉斯定理的很是棒的博客文章,若是你對貝葉斯的推導感興趣---這並不難。

抽樣與統計
假設咱們正在研究人類的身高分佈,並渴望發表一篇使人興奮的科學論文。咱們測量了街上一些陌生人的身高,所以咱們的測量數據是獨立的。咱們從真實人羣中隨機選擇數據子集的過程稱爲抽樣。統計是用來總結采樣值數據規律的函數。你可能見過的統計量是樣本均值:
另外一個例子是樣本方差:
這個公式能夠得出全部數據點偏離平均值的程度。

分佈

什麼是機率分佈?這是一個定律,它以數學函數的形式告訴咱們在一些實驗中不一樣可能結果的機率。對於每一個函數,分佈可能有一些參數來調整其行爲。
當咱們計算硬幣投擲事件的相對頻率時,咱們實際上計算了一個所謂經驗機率分佈。事實證實,世界上許多不肯定的過程能夠用機率分佈來表述。例如,咱們的硬幣結果是一個伯努利分佈,若是咱們想計算一個 n 次試驗後硬幣正面向上的機率,咱們可使用二項式分佈。
引入一個相似於機率環境中的變量的概念會方便不少--隨機變量。每一個隨機變量都具備必定的分佈。隨機變量默認用大寫字母表示,咱們可使用 ~ 符號指定一個分佈賦給一個變量。
上式表示隨機變量 X 服從成功率(正面向上)爲 0.6 的伯努利分佈。

連續和離散機率分佈
機率分佈可分爲兩種:離散分佈用於處理具備有限值的隨機變量,如投擲硬幣和伯努利分佈的情形。離散分佈是由所謂的機率質量函數(PMF)定義的,連續分佈用於處理連續的(理論上)有無限數量的值的隨機變量。想一想用聲音傳感器測量的速度和加速度。連續分佈是由機率密度函數(PDF)定義的。
這兩種分佈類型在數學處理上有所不一樣:一般連續分佈使用積分 ∫ 而離散分佈使用求和Σ。以指望值爲例:
下面咱們將詳細介紹各類常見的機率分佈類型,正如上所說,機率分佈能夠分爲離散型隨機變量分佈和連續性隨機變量分佈。離散型隨機變量分佈常見的有伯努利分佈(Bernoulli Distribution)、二項分佈(Binomial Distribution)、泊松分佈(Poisson Distribution)等,而常見的連續型隨機變量分佈包括均勻分佈(Uniform Distribution)、指數分佈(Exponential Distribution)、正態分佈等。

常見的數據類型

在解釋各類分佈以前,咱們先看看常見的數據類型有哪些,數據類型可分爲離散型和連續型。
離散型數據:數據只能取特定的值,好比,當你擲一個骰子的時候,可能的結果只有 1,2,3,4,5,6 而不會是 1.5 或者 2.45。
連續型數據:數據能夠在給定的範圍內取任何值,給定的範圍能夠是有限的或無限的,好比一個女孩的體重或者身高,或者道路的長度。一個女孩的體重能夠是 54 kgs,54.5 kgs,或 54.5436kgs。

分佈的類型

伯努利分佈
最簡單的離散型隨機變量分佈是伯努利分佈,咱們從這裏開始討論。
一個伯努利分佈只有兩個可能的結果,記做 1(成功)和 0(失敗),只有單次伯努利試驗。設定一個具備伯努利分佈的隨機變量 X,取值爲 1 即成功的機率爲 p,取值爲 0 即失敗的機率爲 q 或者 1-p。
若隨機變量 X 服從伯努利分佈,則機率函數爲:
成功和失敗的機率不必定要相等。好比當我和一個運動員打架的時候,他的勝算應該更大,在這時候,個人成功機率是 0.15,而失敗機率是 0.85。
下圖展現了咱們的戰鬥的伯努利分佈。
如上圖所示,個人成功機率=0.15,失敗機率=0.85。指望值是指一個機率分佈的平均值,對於隨機變量 X,對應的指望值爲:E(X) = 1*p + 0*(1-p) = p,而方差爲 V(X) = E(X^2) – [E(X)]^2 = p – p^2 = p(1-p)
實際上還有不少關於伯努利分佈的例子,好比明天是晴天仍是雨天,這場比賽中某一隊輸仍是贏,等等。

二項分佈
如今回到擲硬幣的案例中,當擲完第一次,咱們能夠再擲一次,也就是存在多個伯努利試驗。第一次爲正不表明之後也會爲正。那麼設一個隨機變量 X,它表示咱們投擲爲正面的次數。X 可能會取什麼值呢?在投擲硬幣的總次數範圍內能夠是任何非負整數。
若是存在一組相同的隨機事件,即一組伯努利試驗,在上例中爲連續擲硬幣屢次。那麼某隨機事件出現的次數即機率服從於二項分佈,也稱爲多重伯努利分佈。
任何一次試驗都是互相獨立的,前一次試驗不會影響當前試驗的結果。兩個結果機率相同的試驗重複 n 次的試驗稱爲屢次伯努利試驗。二項分佈的參數爲 n 和 p,n 是試驗的總次數,p 是每一次試驗的成功機率。
根據以上所述,一個二項分佈的性質爲:

1. 每一次試驗都是獨立的;
2. 只有兩個可能的結果;
3. 進行 n 次相同的試驗;
4. 全部試驗中成功率都是相同的,失敗的機率也是相同的。
二項分佈的數學表達式爲:
成功機率和失敗機率不相等的二項分佈看起來以下圖所示:
而成功機率和失敗機率相等的二項分佈看起來以下圖所示:
二項分佈的平均值表示爲 µ = n*p,而方差能夠表示爲 Var(X) = n*p*q。

泊松分佈
若是你在一個呼叫中心工做,一天內會接到多少次呼叫呢?多少次均可能!在呼叫中心一天能接到多少次呼叫能夠用泊松分佈建模。這裏有幾個例子:
1. 一天內醫院接到的緊急呼叫次數;
2. 一天內地方接到的偷竊事件報告次數;
3. 一小時內光顧沙龍的人數;
4. 一個特定城市裏報告的自殺人數;
5. 書的每一頁的印刷錯誤次數。

如今你能夠按相同的方式構造不少其它的例子。泊松分佈適用於事件發生的時間和地點隨機分佈的狀況,其中咱們只對事件的發生次數感興趣。泊松分佈的主要特色爲以下:
1. 任何一個成功事件不能影響其它的成功事件;
2. 通過短期間隔的成功機率必須等於通過長時間間隔的成功機率;
3. 時間間隔趨向於無窮小的時候,一個時間間隔內的成功機率趨近零。

在泊松分佈中定義的符號有:
  • λ是事件的發生率;
  • t 是事件間隔的長度;
  • X 是在一個時間間隔內的事件發生次數。
設 X 是一個泊松隨機變量,那麼 X 的機率分佈稱爲泊松分佈。以µ表示一個時間間隔 t 內平均事件發生的次數,則 µ=λ*t;
X 的機率分佈函數爲:
泊松分佈的機率分佈圖示以下,其中µ爲泊松分佈的參數:
下圖展現了均值增長時的分佈曲線的變化狀況:
如上所示,當均值增長時,曲線向右移動。泊松分佈的均值和方差爲:
均值:E(X) = µ
方差: Var(X) = µ

均勻分佈
假設咱們在從 a 到 b 的一段線段上等距地選擇一個區間的機率是相等的,那麼機率在整個區間 [a,b] 上是均勻分佈的,機率密度函數也不會隨着變量的更改而更改。均勻分佈和伯努利分佈不一樣,隨機變量的取值都是等機率的,所以機率密度就能夠表達爲區間長度分之一,若是咱們取隨機變量一半的可能值,那麼其出現的機率就爲 1/2。
假定隨機變量 X 服從均勻分佈,那麼機率密度函數爲:
均勻分佈曲線圖以下所示,其中機率密度曲線下面積爲隨機變量發生的機率:
咱們能夠看到均勻分佈的機率分佈圖呈現爲一個矩形,這也就是均勻分佈又稱爲矩形分佈的緣由。在均勻分佈中,a 和 b 都爲參數,也即隨機變量的取值範圍。
服從均勻分佈的隨機變量 X 也有均值和方差,它的均值爲 E(X) = (a+b)/2,方差爲 V(X) = (b-a)^2/12
標準均勻分佈的密度函數參數 a 取值爲 0,b 取值爲 1,所以標準均勻分佈的機率密度能夠表示爲:
指數分佈

如今咱們再次考慮電話中心案例,那麼電話間隔的分佈是怎麼樣的呢?這個分佈可能就是指數分佈,由於指數分佈能夠對電話的時間間隔進行建模。其它案例可能還有地鐵到達時間的建模和空調設備週期等。
在深度學習中,咱們常常會須要一個在 x=0 處取得邊界點 (sharp point) 的分佈。爲了實現這一目的,咱們可使用指數分佈(exponential distribution):
指數分佈使用指示函數 (indicator function)1x≥0,以使當 x 取負值時的機率爲零。
其中 λ >0 爲機率密度函數的參數。隨機變量 X 服從於指數分佈,則該變量的均值可表示爲 E(X) = 1/λ、方差能夠表示爲 Var(X) = (1/λ)^2。以下圖所示,若λ較大,則指數分佈的曲線降低地更大,若λ較小,則曲線越平坦。以下圖所示:
如下是由指數分佈函數推導而出的簡單表達式:
P{X≤x} = 1 – exp(-λx),對應小於 x 的密度函數曲線下面積。
P{X>x} = exp(-λx),表明大於 x 的機率密度函數曲線下面積。
P{x1<X≤ x2} =exp(-λx1)-exp(-λx2),表明 x1 點和 x2 點之間的機率密度函數曲線下面積。

正態分佈(高斯分佈)
實數上最經常使用的分佈就是正態分佈(normal distribution),也稱爲高斯分佈(Gaussian distribution)。由於該分佈的廣泛性,尤爲是中心極限定理的推廣,通常疊加不少較小的隨機變量均可以擬合爲正態分佈。正態分佈主要有如下幾個特色:
1. 全部的變量服從同一均值、方差和分佈模式。
2. 分佈曲線爲鍾型,而且沿 x=μ對稱。
3. 曲線下面積的和爲 1。
4. 該分佈左半邊的精確值等於右半邊。

正態分佈和伯努利分佈有很大的不一樣,然而當伯努利試驗的次數接近於無窮大時,他們的分佈函數基本上是相等的。

若隨機變量 X 服從於正態分佈,那麼 X 的機率密度能夠表示爲:
隨機變量 X 的均值可表示爲 E(X) = µ、方差能夠表示爲 Var(X) = σ^2。其中均值µ和標準差σ爲高斯分佈的參數。
隨機變量 X 服從於正態分佈 N (µ, σ),能夠表示爲:
標準正態分佈能夠定義爲均值爲 0、方差爲 1 的分佈函數,如下展現了標準正態分佈的機率密度函數和分佈圖:

分佈之間的關係


伯努利分佈和二項分佈的關係
1. 二項分佈是伯努利分佈的單次試驗的特例,即單詞伯努利試驗;
2. 二項分佈和伯努利分佈的每次試驗都只有兩個可能的結果;
3. 二項分佈每次試驗都是互相獨立的,每一次試驗均可以看做一個伯努利分佈。

泊松分佈和二項分佈的關係
如下條件下,泊松分佈是二項分佈的極限形式:
1. 試驗次數很是大或者趨近無窮,即 n → ∞;
2. 每次試驗的成功機率相同且趨近零,即 p →0;
3.np =λ 是有限值。

正態分佈和二項分佈的關係 & 正態分佈和泊松分佈的關係
如下條件下,正態分佈是二項分佈的一種極限形式:
1. 試驗次數很是大或者趨近無窮,即 n → ∞;
2.p 和 q 都不是無窮小。
參數 λ →∞的時候,正態分佈是泊松分佈的極限形式。

指數分佈和泊松分佈的關係
若是隨機事件的時間間隔服從參數爲 λ的指數分佈,那麼在時間週期 t 內事件發生的總次數服從泊松分佈,相應的參數爲 λt。

測試
讀者能夠完成如下簡單的測試,檢查本身對上述機率分佈的理解程度:
1. 服從標準正態分佈的隨機變量計算公式爲:
a. (x+µ) / σ
b. (x-µ) / σ
c. (x-σ) / µ

2. 在伯努利分佈中,計算標準差的公式爲:
a. p (1 – p)
b. SQRT(p(p – 1))
c. SQRT(p(1 – p))

3. 對於正態分佈,均值增大意味着:
a. 曲線向左移
b. 曲線向右移
c. 曲線變平坦

4. 假定電池的生命週期服從 λ = 0.05 指數分佈,那麼電池的最終使用壽命在 10 小時到 15 小時之間的機率爲:
a.0.1341
b.0.1540
c.0.0079

結語

在本文中,咱們從最基本的隨機事件及其概念出發討論對機率的理解。隨後咱們討論了最基本的機率計算方法與概念,好比條件機率和貝葉斯機率等等。文中還討論了隨機變量的獨立性和條件獨立性。此外,本文更是詳細介紹了機率分佈,包括離散型隨機變量分佈和連續型隨機變量分佈。本文主要討論了基本的機率定理與概念,其實這些內容在咱們大學的機率論與數理統計課程中基本上都有詳細的解釋。而對於機器學習來講,理解機率和統計學知識對理解機器學習模型十分重要,以它爲基礎咱們也能進一步理解結構化機率等新概念。


原文連接:
  • https://medium.com/towards-data-science/probabiliy-theory-basics-4ef523ae0820
  • https://www.analyticsvidhya.com/blog/2017/09/6-probability-distributions-data-science/

選自 Medium & analyticsvidhya
機器之心編譯
機器之心編輯部


本文爲機器之心編譯,轉載請聯繫本公衆號得到受權。
相關文章
相關標籤/搜索