環境配置須要安裝的包
pip install pandashtml
pip install jiebapython
pip install sklearngit
1、數據獲取
利用python抓取美團的數據集,獲取非空的數據,抓取的字段包括店名、評論、評論的打分
2、數據預處理github
導入sklearn的包app
系統默認的包 函數
1.數據洗滌
將爬取的數據進行數據洗滌,去除符號以及標點等,將結果按id和對應的評論從新組合在一塊兒
造成一條數據一個評分測試
2.讀取數據並作好標籤spa
3.讀取內容創建訓練的字段
apply中的是分詞函數,將每一個句子化成詞向量進行訓練htm
tts分詞的模型,test_size是測試集的大小blog
4.構建模型
其中stop_words是停用詞
5.保存模型
將模型保存起來並在之後的使用中能夠調用
1.導入joblib的包
2.用dump保存起來
3、模型創建
1.初始化使用的分類模型
初始化貝葉斯模型
2.訓練模型創建管道保存
4、預測
1.模型預測
算出準確率
2.加載模型訓練
3.結果
5、注意
在3.0.x的python版本中sklearn的導入模型有變化,參考我給出的模型包。參考連接很詳細,可是導入模型有點舊,有些不能使用訓練集的準確率那個包就是如此
6、參考
參考blog:http://blog.sciencenet.cn/blog-377709-1103593.html
最後根據店鋪的評論數和評論關鍵字生成詞雲