機器學習筆記二十六 餘弦類似度進行文本分類

算法過程: 1. 讀取樣本文本 2. 對文本進行utf-8編碼轉換 3. 對文本進行預處理,完成中文分詞,造成詞條庫,並去除停用詞 4. 讀取文本詞條庫,統計每一個詞條的詞頻,詞頻表明了每一個詞對一段文本的重要程度,字詞的重要性隨着它在文件中出現的次數成正比增長。 5. 對上一步整理造成的每一個詞的詞頻組成文本的詞條詞頻特徵碼。 6. 使用1-5的方法分析待分類文本,生成待分類文本的詞條詞頻特徵碼
相關文章
相關標籤/搜索