機器學習筆記二十六餘弦類似度進行文本分類

時間 2020-05-09

標籤機器學習筆記二十六餘弦類似進行文本分類简体版

原文原文鏈接

算法過程： 1. 讀取樣本文本 2. 對文本進行utf-8編碼轉換 3. 對文本進行預處理，完成中文分詞，造成詞條庫，並去除停用詞 4. 讀取文本詞條庫，統計每一個詞條的詞頻，詞頻表明了每一個詞對一段文本的重要程度，字詞的重要性隨着它在文件中出現的次數成正比增長。 5. 對上一步整理造成的每一個詞的詞頻組成文本的詞條詞頻特徵碼。 6. 使用1-5的方法分析待分類文本，生成待分類文本的詞條詞頻特徵碼

>>阅读原文<<