本文是斯坦福大學 CS229 機器學習課程的基礎材料,原始文件下載[1]
原文作者:Arian Maleki , Tom Do
翻譯:石振宇[2]
審覈和修改製作:黃海廣[3]
備註:請關注github[4]的更新。線性代數的翻譯見(這篇文章)。
概率論複習和參考
概率論是對不確定性的研究。通過這門課,我們將依靠概率論中的概念來推導機器學習算法。這篇筆記試圖涵蓋適用於CS229的概率論基礎。概率論的數學理論非常複雜,並且涉及到「分析」的一個分支:測度論。在這篇筆記中,我們提供了概率的一些基本處理方法,但是不會涉及到這些更復雜的細節。
爲了定義集合上的概率,我們需要一些基本元素,
樣本空間 :隨機實驗的所有結果的集合。在這裏,每個結果 可以被認爲是實驗結束時現實世界狀態的完整描述。
事件集(事件空間) :元素 的集合(稱爲事件)是 的子集(即每個 是一個實驗可能結果的集合)。
備註: 需要滿足以下三個條件:
(1)
(2)
(3)
概率度量 :函數 是一個 的映射,滿足以下性質:
對於每個 , ,
如果 是互不相交的事件 (即 當 時, ), 那麼:
以上三條性質被稱爲概率公理。
舉例:
考慮投擲六面骰子的事件。樣本空間爲 。最簡單的事件空間是平凡事件空間 .另一個事件空間是 的所有子集的集合。對於第一個事件空間,滿足上述要求的唯一概率度量由 , 給出。對於第二個事件空間,一個有效的概率度量是將事件空間中每個事件的概率分配爲 ,這裏 是這個事件集合中元素的數量;例如 , 。
性質:
如果 ,則:
(布爾不等式):
(全概率定律):如果 是一些互不相交的事件並且它們的並集是 ,那麼它們的概率之和是 1
假設 是一個概率非 0 的事件,我們定義在給定 的條件下 的條件概率爲:
換句話說, )是度量已經觀測到 事件發生的情況下 事件發生的概率,兩個事件被稱爲獨立事件當且僅當 (或等價地, )。因此,獨立性相當於是說觀察到事件 對於事件 的概率沒有任何影響。
考慮一個實驗,我們翻轉 10 枚硬幣,我們想知道正面硬幣的數量。這裏,樣本空間 的元素是長度爲 10 的序列。例如,我們可能有。然而,在實踐中,我們通常不關心獲得任何特定正反序列的概率。相反,我們通常關心結果的實值函數,比如我們 10 次投擲中出現的正面數,或者最長的背面長度。在某些技術條件下,這些函數被稱爲隨機變量。
更正式地說,隨機變量 是一個的 函數。通常,我們將使用大寫字母 或更簡單的 (其中隱含對隨機結果 的依賴)來表示隨機變量。我們將使用小寫字母 來表示隨機變量的值。
舉例:在我們上面的實驗中,假設 是在投擲序列 中出現的正面的數量。假設投擲的硬幣只有 10 枚,那麼 只能取有限數量的值,因此它被稱爲離散隨機變量。這裏,與隨機變量 相關聯的集合取某個特定值 的概率爲:
舉例:假設 是一個隨機變量,表示放射性粒子衰變所需的時間。在這種情況下, 具有無限多的可能值,因此它被稱爲連續隨機變量。我們將 在兩個實常數 和 之間取值的概率(其中 )表示爲:
爲了指定處理隨機變量時使用的概率度量,通常可以方便地指定替代函數(CDF、PDF和PMF),在本節和接下來的兩節中,我們將依次描述這些類型的函數。
累積分佈函數(CDF)是函數 ,它將概率度量指定爲:
通過使用這個函數,我們可以計算任意事件發生的概率。圖 1 顯示了一個樣本CDF函數。
圖1:一個累計分佈函數(CDF) 性質:
當隨機變量 取有限種可能值(即, 是離散隨機變量)時,表示與隨機變量相關聯的概率度量的更簡單的方法是直接指定隨機變量可以假設的每個值的概率。特別地,概率質量函數(PMF)是函數 ,這樣:
在離散隨機變量的情況下,我們使用符號 表示隨機變量 可能假設的一組可能值。例如,如果 是一個隨機變量,表示十次投擲硬幣中的正面數,那麼 是一個隨機變量,表示十次投擲硬幣中的正面數,那麼 。
性質: