「蟻」小見大,數據告訴你《蟻人2》是否值得一看

2172396fb4e14ac3c00d2f35776fde041670e93c
並無成功爬到全部的短評,一波三折,最終只爬到了500條,固然這也是豆瓣目前可見的最大數量,本文將細緻分析爬蟲的整個過程,並對爬到的數據加以分析,蟻小見大。python

整篇文章共包含爬和文本分析兩部分,由於爬到的數據包含信息較少,因此分析過程相對簡單,包含描述統計分析、情感分析和分詞詞雲,主要代碼在各部分給出,須要完整代碼和爬到的數據請在後臺回覆"蟻人2爬蟲",能夠直接運行。工具

1. 爬蟲部分blog

首先說明一下目標和工具selenium

軟件:python3.6後臺

packages:selenium jieba snownlp wordcloud軟件

後三個是以後文本分析用的。im

目標網址:統計

https://movie.douban.com/subject/26636712/comments?status=P數據

3914a64a364e66a28bea945632b402efbe54bc95

豆瓣上的影評分兩種,一種是長篇大論的影評,還有一種是短評,相似上圖中,此次爬蟲的目標就是上圖中紅色框線中的短評,信息包括用戶名,星級評價,日期,有用數,評論正文,雖然說主頁顯示45576條,但其實可見的只有500條,每頁是20條短評,多一條都不給,手動去點,點到25頁以後就沒有任何信息了。dcloud

相關文章
相關標籤/搜索