分類（一）：樸素貝葉斯文本分類

時間 2019-11-10

標籤分類樸素貝葉斯文简体版

原文原文鏈接

爲了處理這種維數太高的狀況，咱們作一個假設：X的每一維特徵之間都是獨立的。這也就是樸素貝葉斯假設。學習

根據獨立分佈的條件，咱們就可以容易地寫出P（d|C），以下：spa

P(d/C) = ∏ P(ti / C)文檔

d表明文檔，ti表明文檔中的每一個詞，C表明類。博客

樸素貝葉斯分類器是一種有監督學習，常見有兩種模型，多項式模型(multinomial model)和伯努利模型(Bernoulli model)。model

先驗機率在《信息檢索導論》裏面都是以類c下的文檔數佔比來衡量，而有些博客則如下面兩種形式區分對待。方法

在多項式模型中，設某文檔d=(t1,t2,…,tk)，tk是該文檔中出現過的單詞，容許重複，則：文件

先驗機率P(c)= 類c下單詞總數/整個訓練樣本的單詞總數。co
類條件機率P(tk|c)=(類c下單詞tk在各個文檔中出現過的次數之和+1)/(類c下單詞總數+|V|)。V是訓練樣本的單詞表（即抽取單詞，單詞出現屢次，只算一個），|V|則表示訓練樣本包含多少種單詞。模型

P(tk|c)能夠看做是單詞tk在證實d屬於類c上提供了多大的證據，而P(c)則能夠認爲是類別c在總體上佔多大比例(有多大可能性)。

P(c)= 類c下文件總數/整個訓練樣本的文件總數

P(tk|c)=(類c下包含單詞tk的文件數+1)/(類c下單詞總數+2)

類c下包含單詞tk的文件數也就是說，一個文檔中單詞t出現屢次可是隻算做一次

兩者的計算粒度不同，多項式模型以單詞爲粒度，伯努利模型以文件爲粒度，所以兩者的先驗機率和類條件機率的計算方法都不一樣。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。