並無成功爬到全部的短評,一波三折,最終只爬到了500條,固然這也是豆瓣目前可見的最大數量,本文將細緻分析爬蟲的整個過程,並對爬到的數據加以分析,蟻小見大。python
整篇文章共包含爬和文本分析兩部分,由於爬到的數據包含信息較少,因此分析過程相對簡單,包含描述統計分析、情感分析和分詞詞雲,主要代碼在各部分給出,須要完整代碼和爬到的數據請在後臺回覆"蟻人2爬蟲",能夠直接運行。工具
1. 爬蟲部分blog
首先說明一下目標和工具selenium
軟件:python3.6後臺
packages:selenium jieba snownlp wordcloud軟件
後三個是以後文本分析用的。im
目標網址:統計
https://movie.douban.com/subject/26636712/comments?status=P數據
豆瓣上的影評分兩種,一種是長篇大論的影評,還有一種是短評,相似上圖中,此次爬蟲的目標就是上圖中紅色框線中的短評,信息包括用戶名,星級評價,日期,有用數,評論正文,雖然說主頁顯示45576條,但其實可見的只有500條,每頁是20條短評,多一條都不給,手動去點,點到25頁以後就沒有任何信息了。dcloud