python進行文本分類，基於word2vec,sklearn-svm對微博垃圾評論分類

時間 2020-08-02

標籤 python 進行文本分類基於 word2vec word vec sklearn svm 微博垃圾評論欄目 Python 简体版

原文原文鏈接

差很少一年前的第一個分類任務，記錄一下語料庫是關於微博的垃圾用戶評論，分爲兩類，分別在normal,和spam文件夾下。裏面是不少個txt文件，一個txt是一條用戶評論。python 1、進行分詞app 利用Jieba分詞和去除停用詞（這裏我用的是全模式分詞），每一篇文檔爲一行用換行拼接，獲得result.txt。其中用到的停用詞是在網上隨便下載的。dom # 對句子進行分詞 def seg_

>>阅读原文<<