教你用python登錄豆瓣並爬取影評

時間 2019-11-17

原文原文鏈接

在上篇文章爬取豆瓣電影top250後，想一想既然爬了電影，乾脆就連影評也爬了，這樣能夠看看人們評價的電影，再加上剛出不久的移動迷官3好像挺熱的，乾脆就爬他吧，爬完看看好很差看！python

進入主題

1.去找目標網頁並找到所要找的數據
正則表達式

一進去網頁就條件反射打開開發者工具，很容易就看到了這個數據庫

鼠標所點的就是我接下來要爬的網站，先看看他的response和請求頭之類的信息，他的請求方式時get，response是一個網頁結構，這就好辦了，咱們就能夠用正則來匹配出所要的數據，正則仍是個很好用的東西，請你們務必要學會啊。那接下來就動手敲代碼咯！服務器

2.用re+requests獲取數據微信

獲取信息
session

先把數據寫入txt文件中（打開的文件要指定編碼爲utf-8，要不會出現編碼問題，由於window的默認編碼方式是gbk，而你的編碼爲utf-8）
工具

正則表達式和網址
post

一點擊運行，只運行了兩頁，就出了問題，由於這個評論不止兩頁網站

調試了下，在獲取完第二頁的時候他返回了個不存在的網頁，致使個人正則表達式捕捉不到數據，出現了個空的page，因此就只下載了兩頁，這應該是被反爬了，繼續回網頁看看須要加什麼請求頭，然而我把所有的請求頭的信息都加了，仍是沒用，這就觸及到個人盲區了（尷尬臉），可是我能夠百度啊，百度一看，看見有人說模擬登錄就能夠了，那好，我就來模擬登錄一波！！！編碼

3.模擬登錄豆瓣

首先須要看看登錄須要什麼參數，這個參數是在豆瓣的登錄網址，先打開登錄，打開開發者工具(要不會看不到後面這個所須要的網頁)，填好信息點擊登錄，而後點擊這個login網頁，往下拉就會看到From Data 這個框，這個就是登錄所要的參數