python網絡爬蟲之使用scrapy自動登陸網站

前面曾經介紹過requests實現自動登陸的方法。這裏介紹下使用scrapy如何實現自動登陸。仍是以csdn網站爲例。
Scrapy使用FormRequest來登陸並遞交數據給服務器。只是帶有額外的formdata參數用來傳送登陸的表單信息(用戶名和密碼),爲了使用這個類,須要使用如下語句導入:from scrapy.http import FormRequest
那麼關於登陸過程當中使用cookie值,scrapy會自動爲咱們處理cookie,只要咱們登陸成功了,它就會像一個瀏覽器同樣自動傳送cookie
首先爬蟲中定義start_requests
def start_requests(self):

    return [Request("http://passport.csdn.net/account/login",meta={'cookiejar':1},callback=self.post_login,method="POST")]
 

其中採用Requests的方法首先訪問登陸網站。meta屬性是字典,字典格式即{‘key’:'value'},字典是一種可變容器模型,可存儲任意類型對象。html

request中meta參數的做用是傳遞信息給下一個函數,這些信息能夠是任意類型的,好比值、字符串、列表、字典......方法是把要傳遞的信息賦值給meta字典的鍵. 上面start_requests中鍵‘cookiejar’是一個特殊的鍵,scrapy在meta中見到此鍵後,會自動將cookie傳遞到要callback的函數中。既然是鍵(key),就須要有值(value)與之對應,例子中給了數字1,也能夠是其餘值,好比任意一個字符串。瀏覽器

Callback就是鏈接到了登陸網站後下一步須要調的函數。下面來看下post_login如何實現tomcat

def post_login(self,response):
html=BeautifulSoup(response.text,"html.parser")
for input in html.find_all('input'):
if 'name' in input.attrs and input.attrs['name'] == 'lt':
lt=input.attrs['value']
if 'name' in input.attrs and input.attrs['name'] == 'execution':
e1=input.attrs['value']
data={'username':'xxxx','password':'xxxxx','lt':lt,'execution':e1,'_eventId':'submit'}
return [FormRequest.from_response(response,
meta={'cookiejar':response.meta['cookiejar']},
headers=self.header,
formdata=data,
callback=self.after_login,)]

首先是獲取lt,execution字段的值,具體在以前介紹requests的帖子中有解釋。服務器

而後調用FormRequest.from_response。 這個方法的做用是從response中返回的網頁中構造表單數據,所以第一個參數是response。這裏response返回的網頁也就是前面Requests中調用的http://passport.csdn.net/account/logincookie

接下來的參數是meta。Heasers,formadata以及callback。這裏的callback有就是指向登陸後的函數。session

after_login的實現以下。dom

def after_login(self,response):
print 'after login'
print response.status
header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36'}
return [Request("http://my.csdn.net/my/mycsdn",meta={'cookiejar':response.meta['cookiejar']},headers=header,callback=self.parse)]
def parse(self, response):
print response.text.decode('utf-8').encode(self.type)
運行後咱們來看下記錄的log。從下面的紅色標紅部分能夠看到。在向http://passport.csdn.net/account/login發起登陸請求後,scrapy緊接着
http://passport.csdn.net/account/login;jsessionid=8B4A62EA09BBB5F1FBF4D921B64FECE6.tomcat2  發起創建請求。這也就是調用FormRequest.from_response觸發的。在這裏後面鏈接的jsessionid值也就是以前在訪問登陸網站的時候獲取的會話ID,在這裏scrapy自動給添加上了
2017-10-16 22:17:34 [scrapy] INFO: Spider opened
2017-10-16 22:17:34 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-10-16 22:17:34 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2017-10-16 22:17:34 [scrapy] DEBUG: Crawled (404) <GET http://passport.csdn.net/robots.txt> (referer: None)
2017-10-16 22:17:34 [scrapy] DEBUG: Crawled (200) <POST http://passport.csdn.net/account/login> (referer: None)
2017-10-16 22:17:34 [scrapy] DEBUG: Crawled (200) <POST http://passport.csdn.net/account/login;jsessionid=8B4A62EA09BBB5F1FBF4D921B64FECE6.tomcat2> (referer: http://www.csdn.net/)
2017-10-16 22:17:35 [scrapy] DEBUG: Crawled (200) <GET http://my.csdn.net/robots.txt> (referer: None)
2017-10-16 22:17:35 [scrapy] DEBUG: Crawled (200) <GET http://my.csdn.net/my/mycsdn> (referer: http://passport.csdn.net/account/login;jsessionid=8B4A62EA09BBB5F1FBF4D921B64FECE6.tomcat2)
2017-10-16 22:17:35 [scrapy] INFO: Closing spider (finished)
2017-10-16 22:17:35 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 2022,
fiddler中抓取的數據能夠看到jsessionid是在訪問登陸網站後,網站返回的response 消息的header消息中。也就是網站設置的cookie值
完整的代碼:
# -*- coding:UTF-8 -*- #from scrapy.spiders import Spider,CrawlSpider,Rulefrom scrapy.selector import Selectorfrom scrapy.http import Requestfrom scrapy import FormRequestfrom test2.items import Test2Itemfrom scrapy.utils.response import open_in_browserfrom scrapy.linkextractors import LinkExtractorfrom bs4 import BeautifulSoupimport sysclass testSpider(Spider):    name="test2"    allowd_domains=['http://www.csdn.net/']    header={'host':'passport.csdn.net','User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36','Referer':'http://www.csdn.net/'}    start_urls=["http://www.csdn.net/"]    reload(sys)    sys.setdefaultencoding('utf-8')    type = sys.getfilesystemencoding()    def start_requests(self):        return [Request("http://passport.csdn.net/account/login",meta={'cookiejar':1},callback=self.post_login,method="POST")]    def post_login(self,response):        html=BeautifulSoup(response.text,"html.parser")        for input in html.find_all('input'):            if 'name' in input.attrs and input.attrs['name'] == 'lt':                lt=input.attrs['value']            if 'name' in input.attrs and input.attrs['name'] == 'execution':                e1=input.attrs['value']        data={'username':'xxxx','password':'xxxxx','lt':lt,'execution':e1,'_eventId':'submit'}        return [FormRequest.from_response(response,                                          meta={'cookiejar':response.meta['cookiejar']},                                          headers=self.header,                                          formdata=data,                                          callback=self.after_login,)]    def after_login(self,response):        print 'after login'        print response.status        header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36'}        return [Request("http://my.csdn.net/my/mycsdn",meta={'cookiejar':response.meta['cookiejar']},headers=header,callback=self.parse)]    def parse(self, response):        print response.text.decode('utf-8').encode(self.type)
相關文章
相關標籤/搜索