python進行文本分類,基於word2vec,sklearn-svm對微博垃圾評論分類

差很少一年前的第一個分類任務,記錄一下 語料庫是關於微博的垃圾用戶評論,分爲兩類,分別在normal,和spam文件夾下。裏面是不少個txt文件,一個txt是一條用戶評論。python 1、進行分詞app 利用Jieba分詞和去除停用詞(這裏我用的是全模式分詞),每一篇文檔爲一行 用換行拼接,獲得result.txt。其中用到的停用詞是在網上隨便下載的。dom # 對句子進行分詞 def seg_
相關文章
相關標籤/搜索