談到貝葉斯,會提到機率論的兩大學派,頻率學派和貝葉斯學派,也是機器學習中的判別方法和生成方法,對於大多數的分類算法,如決策樹,SVM,邏輯迴歸,KNN等,這些都是判別方法,也就是直接學習出特徵輸出Y和特徵X之間的關係,要麼是決策函數,要麼是條件分佈。可是樸素貝葉斯倒是生成方法,也就是直接找出特徵輸出Y和特徵X的聯合分佈,而後用得出。
1、貝葉斯決策輪
貝葉斯決策論是機率框架下實施決策的基本方法,對分類任務來講,在全部相關機率都已知的理想狀況下,貝葉斯決策論考慮如何基於這些機率和誤判損失來選擇最優的類別標記,以多分類任務爲例講解。
假設有N種可能的類別標記,即,是將一個真實標記爲的樣本誤分類爲所產生的損失,基於後驗機率可得到將樣本x分類爲所產生的指望損失,即在樣本x上的"條件風險"算法
咱們的任務時尋找一個斷定準則h:以最小化整體風險框架
對於每一個樣本x,若h能最小化條件風險R(h(x)|x),則整體風險R(h)也將最小化,這就產生了貝葉斯斷定準則,爲最小化整體風險,只需在每一個樣本上選擇能使條件風險R(c|x)最小的類別標記,即:機器學習
稱爲貝葉斯最優分類器,與之對應的整體風險稱爲貝葉斯風險。
條件風險簡化爲函數
此時,若最小化分類錯誤率的貝葉斯最優分類器爲學習
即選擇能使後驗機率最大的類別標記。
基於貝葉斯公式,方法
其中,P(c)是類"先驗"機率,是樣本x的相對類標記c的類條件機率或稱爲「似然」。
類先驗機率P(c)表達樣本空間中各種樣本所佔的比例,根據大數定律,可經過各種樣本出現的頻率估計,對於類條件機率因爲涉及x的全部屬性的了聯合機率,直接計算很困難,須要藉助極大似然估計。另外,因爲類條件機率難以直接計算,處理時也有簡單的zu作屬性獨立性假設,這就是樸素貝葉斯。
2、樸素貝葉斯相關的統計學知識
咱們先看看條件獨立公式,若是X和Y相互獨立,則有:統計
接着看條件機率公式:錯誤
或者說:生成
接着看全機率公式:模型
從上面公式能夠得出貝葉斯公式:
3、樸素貝葉斯模型
假如咱們的分類模型樣本是:
即咱們有m個樣本,每一個樣本有n個特徵,特徵輸出有K個類別,定義爲。 從樣本咱們能夠學習獲得樸素貝葉斯的先驗分佈,接着學習到條件機率分佈,而後咱們就能夠用貝葉斯公式獲得X和Y的聯合分佈了。聯合分佈定義爲: