使用python對美團的評論進行貝葉斯模型分類

環境配置須要安裝的包
pip install pandashtml

pip install jiebapython

pip install sklearngit

1、數據獲取
利用python抓取美團的數據集,獲取非空的數據,抓取的字段包括店名、評論、評論的打分

2、數據預處理github

導入sklearn的包app

 

系統默認的包 函數

 

1.數據洗滌
將爬取的數據進行數據洗滌,去除符號以及標點等,將結果按id和對應的評論從新組合在一塊兒
造成一條數據一個評分
測試

 

2.讀取數據並作好標籤spa

 

3.讀取內容創建訓練的字段
apply中的是分詞函數,將每一個句子化成詞向量進行訓練htm

tts分詞的模型,test_size是測試集的大小blog

 

4.構建模型

其中stop_words是停用詞

 

5.保存模型

將模型保存起來並在之後的使用中能夠調用

1.導入joblib的包

 

2.用dump保存起來

 

3、模型創建

1.初始化使用的分類模型
初始化貝葉斯模型

 

2.訓練模型創建管道保存

 

4、預測

1.模型預測

算出準確率

 

2.加載模型訓練

 

3.結果

 

5、注意

在3.0.x的python版本中sklearn的導入模型有變化,參考我給出的模型包。參考連接很詳細,可是導入模型有點舊,有些不能使用訓練集的準確率那個包就是如此

 

6、參考
參考blog:http://blog.sciencenet.cn/blog-377709-1103593.html

最後根據店鋪的評論數和評論關鍵字生成詞雲

詞雲:http://www.javashuo.com/article/p-agltxniz-kh.html

github:https://github.com/pzq7025/emotion

相關文章
相關標籤/搜索