NLP用樸素貝葉斯進行文本分類(二)

1.多項式模型處理句子中有重複詞語的情況。 如果我們考慮重複詞語的情況,也就是說,重複的詞語我們視爲其出現多次,直接按條件獨立假設的方式推導,則有 在統計計算P(「發票」|S)時,每個被統計的垃圾郵件樣本中重複的詞語也統計多次。 你看這個多次出現的結果,出現在概率的指數/次方上,因此這樣的模型叫作多項式模型。 2.去除停用詞與選擇關鍵詞 我們繼續觀察(「我」,「司」,「可」,「辦理」,「正規發票」
相關文章
相關標籤/搜索