樸素貝葉斯

一、機率

一、條件機率

對於條件機率,咱們有:函數

表示在b已知的狀況下(條件)發生a的機率。spa

二、機率的乘法法則

三、獨立事件同時發生的機率

二、貝葉斯定理

貝葉斯定理聯繫先驗機率和後驗機率:3d

p(A|B)表示在B發生的狀況下A發生的機率。blog

P(A)指先驗機率;P(B|A)爲似然函數,形式同條件機率;P(B)也爲先驗機率,可經過全機率公式計算獲得;p(A|B)爲後驗機率。事件

不一樣:變量

①先驗機率:事件發生前的預判機率。能夠是基於歷史數據的統計,能夠由背景常識得出,也能夠是人的主觀觀點給出。通常都是單獨事件機率。技巧

②後驗機率:事件發生後求的反向條件機率。或者說,基於先驗機率求得的反向條件機率。數據類型

③似然函數:是根據已知結果去推測固有性質的可能性(likelihood),是對固有性質的擬合程度。方法

在分類問題中,其可記作:im

p(ci|X)表示在給出數據X的條件下,其屬於ci的機率。 p(X|ci)可稱爲類條件機率密度函數,p(X)可稱爲全機率密度,經過全機率公式獲得:

基於貝葉斯準則,爲數據X的分類。因爲全機率對於全部的p(ci|X)都相同,所以只須要比較分子的大小便可。

三、樸素貝葉斯假設-條件獨立性假設

即X表示某個數據的n維特徵,p(X|ci)能夠把X中的特徵展開表示:

 

該假設爲X的全部特徵都相互獨立,則:

對於離散型的特徵,一般須要求其每個取值的機率。而對於連續型特徵,則將其離散化。

四、特徵模型

約定:

樣本數爲m,ci類別的樣本數爲mi,總類別個數爲C。

第i個樣本的特徵總數爲αi,其第j個特徵取值狀況有βj種。

所有不一樣特徵共A種,第j種特徵xj取值狀況共Bj種,其第k種取值記爲Bik。全部特徵不一樣取值狀況總和記爲B。

一、多項式模型

①適用數據類型

離散值。即對應的特徵爲離散的。好比性別(取值爲男、女)、學歷(小學、高中、本科、專科、碩士、博士、博士後)。

②模型介紹

該模型在一些書中也稱爲詞袋模型。須要統計每一個特徵取值的樣本數目。

在多項式模型中,一般含有平滑項σ,有:

表示在類別ci中,特徵xj取值爲Bk的機率; mi表示類別爲ci的樣本數; 表示類別爲ci的樣本中,特徵xj取值爲Bjk的樣本數目;B表示全部特徵的不一樣取值的總和;C爲總類別個數。

σ=0時,表示不作平滑處理。

σ=1時,稱爲拉普拉斯平滑(Laplace平滑)。可以防止爲0而致使的後驗機率爲0的狀況。

0<σ<1時,稱爲Lidstone平滑。

對於文本分類,則有:

mi表示類別爲ci的詞向量中全部出現單詞的總和;表示類別爲ci的全部詞向量中單詞xj出現的次數。

對於所預測的某個詞向量,其可能並未包含全部詞彙表的詞,則只需將其出現的xj來計算

二、伯努利模型

 

①適用數據類型

離散值。

②模型介紹

該模型在有些書中也被稱爲詞集模型。其與多項式模型相似,不過該模型中,每一個特徵取值只能爲1或0,表示出現與否(對於文本分類而言,1表示某個單詞出如今該文本中,0則表示沒有出現),其所有特徵取自全局。固然對於特徵取值大於2的狀況,須要自定義必定的閾值來判斷0和1的取值狀況。

三、高斯模型

①適用數據類型

連續型。好比身高等。

②模型介紹

高斯模型假設每一維特徵都服從高斯分佈(正態分佈):

其中,μ表示類別爲ci、特徵xj的均值;

σ2爲類別爲ci、特徵xj的方差。

Bjk是連續型變量xj的某一個取值。

所以,只需對於樣本數據獲得每一個類別中每一個連續型特徵的均值和方差,也就是獲得正態分佈的密度函數。有了密度函數,就能夠把某個預測數據的該連續性特徵的值代入,算出某一點的密度函數的值。

五、處理技巧

有時會遇到下溢出問題,即太小,致使全部太小的數的乘積結果因爲舍入爲0。這時可使用取對數的方法避免下溢出或浮點舍入致使的錯誤:

 

最後選取值最大的所對應類別即爲預測類別。

相關文章
相關標籤/搜索