NLP用樸素貝葉斯進行文本分類（二）

時間 2021-01-01

原文原文鏈接

1.多項式模型處理句子中有重複詞語的情況。如果我們考慮重複詞語的情況，也就是說，重複的詞語我們視爲其出現多次，直接按條件獨立假設的方式推導，則有在統計計算P(「發票」|S）時，每個被統計的垃圾郵件樣本中重複的詞語也統計多次。你看這個多次出現的結果，出現在概率的指數/次方上，因此這樣的模型叫作多項式模型。 2.去除停用詞與選擇關鍵詞我們繼續觀察（「我」,「司」,「可」,「辦理」,「正規發票」