分類(一):樸素貝葉斯文本分類

    

一、樸素貝葉斯假設

    爲了處理這種維數太高的狀況,咱們作一個假設:X的每一維特徵之間都是獨立的。這也就是樸素貝葉斯假設。學習

根據獨立分佈的條件,咱們就可以容易地寫出P(d|C),以下:spa

        P(d/C) = ∏ P(ti / C)文檔

    d表明文檔,ti表明文檔中的每一個詞,C表明類。博客


二、樸素貝葉斯分類器

    樸素貝葉斯分類器是一種有監督學習,常見有兩種模型,多項式模型(multinomial model)和伯努利模型(Bernoulli model)。model

先驗機率在《信息檢索導論》裏面都是以類c下的文檔數佔比來衡量,而有些博客則如下面兩種形式區分對待。方法

2.一、多項式模型

    在多項式模型中, 設某文檔d=(t1,t2,…,tk),tk是該文檔中出現過的單詞,容許重複,則:文件

    1. 先驗機率P(c)= 類c下單詞總數/整個訓練樣本的單詞總數。co

    2. 類條件機率P(tk|c)=(類c下單詞tk在各個文檔中出現過的次數之和+1)/(類c下單詞總數+|V|)。V是訓練樣本的單詞表(即抽取單詞,單詞出現屢次,只算一個),|V|則表示訓練樣本包含多少種單詞。模型

    P(tk|c)能夠看做是單詞tk在證實d屬於類c上提供了多大的證據,而P(c)則能夠認爲是類別c在總體上佔多大比例(有多大可能性)。


2.二、伯努利模型

P(c)= 類c下文件總數/整個訓練樣本的文件總數

P(tk|c)=(類c下包含單詞tk的文件數+1)/(類c下單詞總數+2)

類c下包含單詞tk的文件數也就是說,一個文檔中單詞t出現屢次可是隻算做一次


兩者的計算粒度不同,多項式模型以單詞爲粒度,伯努利模型以文件爲粒度,所以兩者的先驗機率和類條件機率的計算方法都不一樣。

相關文章
相關標籤/搜索