爲了處理這種維數太高的狀況,咱們作一個假設:X的每一維特徵之間都是獨立的。這也就是樸素貝葉斯假設。學習
根據獨立分佈的條件,咱們就可以容易地寫出P(d|C),以下:spa
P(d/C) = ∏ P(ti / C)文檔
d表明文檔,ti表明文檔中的每一個詞,C表明類。博客
樸素貝葉斯分類器是一種有監督學習,常見有兩種模型,多項式模型(multinomial model)和伯努利模型(Bernoulli model)。model
先驗機率在《信息檢索導論》裏面都是以類c下的文檔數佔比來衡量,而有些博客則如下面兩種形式區分對待。方法
在多項式模型中, 設某文檔d=(t1,t2,…,tk),tk是該文檔中出現過的單詞,容許重複,則:文件
先驗機率P(c)= 類c下單詞總數/整個訓練樣本的單詞總數。co
類條件機率P(tk|c)=(類c下單詞tk在各個文檔中出現過的次數之和+1)/(類c下單詞總數+|V|)。V是訓練樣本的單詞表(即抽取單詞,單詞出現屢次,只算一個),|V|則表示訓練樣本包含多少種單詞。模型
P(tk|c)能夠看做是單詞tk在證實d屬於類c上提供了多大的證據,而P(c)則能夠認爲是類別c在總體上佔多大比例(有多大可能性)。
P(c)= 類c下文件總數/整個訓練樣本的文件總數
P(tk|c)=(類c下包含單詞tk的文件數+1)/(類c下單詞總數+2)
類c下包含單詞tk的文件數也就是說,一個文檔中單詞t出現屢次可是隻算做一次
兩者的計算粒度不同,多項式模型以單詞爲粒度,伯努利模型以文件爲粒度,所以兩者的先驗機率和類條件機率的計算方法都不一樣。