文檔生成模型:多元貝努利vs多項式

在使用樸素貝葉斯(NB)對文檔進行分類時,會使用到文檔的生成模型,爲何呢?仍是從貝葉斯公式出發,其中右半部分就是生成一篇文檔的過程,首先選擇一個類c,而後根據這個類以必定機率生成文檔d。P(c)沒什麼說的了,知足categorical分佈(一次的多項式分佈)就能夠了。而P(d|c)就比較有意思了,主要能夠用兩種分佈來模擬,一種是多元貝努利分佈,一種是多項式分佈,這裏介紹這兩種模擬方法的思想和區別。
相關文章
相關標籤/搜索