使用python對美團的評論進行貝葉斯模型分類

時間 2019-11-12

標籤使用 python 對美評論進行貝葉模型分類欄目 Python 简体版

原文原文鏈接

環境配置須要安裝的包
pip install pandashtml

pip install jiebapython

pip install sklearngit

1、數據獲取
利用python抓取美團的數據集，獲取非空的數據，抓取的字段包括店名、評論、評論的打分

2、數據預處理github

導入sklearn的包app

系統默認的包函數

1.數據洗滌
將爬取的數據進行數據洗滌，去除符號以及標點等，將結果按id和對應的評論從新組合在一塊兒
造成一條數據一個評分
測試

2.讀取數據並作好標籤spa

3.讀取內容創建訓練的字段
apply中的是分詞函數，將每一個句子化成詞向量進行訓練htm

tts分詞的模型，test_size是測試集的大小blog

4.構建模型

其中stop_words是停用詞

5.保存模型

將模型保存起來並在之後的使用中能夠調用

1.導入joblib的包

2.用dump保存起來

3、模型創建

1.初始化使用的分類模型
初始化貝葉斯模型

2.訓練模型創建管道保存

4、預測

1.模型預測

算出準確率

2.加載模型訓練

3.結果

5、注意

在3.0.x的python版本中sklearn的導入模型有變化，參考我給出的模型包。參考連接很詳細，可是導入模型有點舊，有些不能使用訓練集的準確率那個包就是如此

6、參考
參考blog：http://blog.sciencenet.cn/blog-377709-1103593.html

最後根據店鋪的評論數和評論關鍵字生成詞雲

詞雲：http://www.javashuo.com/article/p-agltxniz-kh.html

github：https://github.com/pzq7025/emotion

相關標籤/搜索