樸素貝葉斯文本分類-在《紅樓夢》作者鑑別的應用上(python實現)

樸素貝葉斯算法簡單、高效。接下來我們來介紹其如何應用在《紅樓夢》作者的鑑別上。 第一步,當然是先得有文本數據,我在網上隨便下載了一個txt(當時急着交初稿。。。)。分類肯定是要一個回合一個回合的分,所以我們拿到文本數據後,先進行回合劃分。然後就是去標點符號、分詞,做詞頻統計。 1 # -*- coding: utf-8 -*- 2 import re 3 import jieba
相關文章
相關標籤/搜索