Scrapy中使用cookie免於驗證登陸和模擬登陸

時間 2019-11-17

標籤 scrapy 使用 cookie 免於驗證登陸模擬欄目 Python 简体版

原文原文鏈接

Scrapy中使用cookie免於驗證登陸和模擬登陸

引言

python爬蟲我認爲最困難的問題一個是ip代理，另一個就是模擬登陸了，更操蛋的就是模擬登陸了以後還有驗證碼，真的是不讓人省心，不過既然有了反爬蟲，那麼就有反反爬蟲的策略，這裏就先介紹一個cookie模擬登錄，後續還有seleminum+phantomjs模擬瀏覽器登陸的文章。還不知道cookie是什麼朋友們，能夠點擊這裏python

cookie提取方法：

打開谷歌瀏覽器或者火狐瀏覽器，若是是谷歌瀏覽器的按F12這個鍵就會跳出來瀏覽器控制檯，而後點擊Network，以後就是刷新網頁開始抓包了，以後在抓到的頁面中隨便打開一個，就能看到cokie了，可是這裏的cookie並不符合python中的格式，所以須要轉換格式，下面提供了轉換的代碼git

# -*- coding: utf-8 -*-

class transCookie:
def __init__(self, cookie):
    self.cookie = cookie

def stringToDict(self):
    '''
    將從瀏覽器上Copy來的cookie字符串轉化爲Scrapy能使用的Dict
    :return:
    '''
    itemDict = {}
    items = self.cookie.split(';')
    for item in items:
        key = item.split('=')[0].replace(' ', '')
        value = item.split('=')[1]
        itemDict[key] = value
    return itemDict

if __name__ == "__main__":
cookie = "你複製的cookie"
trans = transCookie(cookie)
print trans.stringToDict()

補充說明：

只須要將你網頁上的cookie複製到上述代碼中直接運行就能夠了github

使用cookie操做scrapy

直接擼代碼

# -*- coding: utf-8 -*-
import scrapy
from scrapy.conf import settings #從settings文件中導入Cookie，這裏也能夠室友from scrapy.conf import settings.COOKIE

class DemoSpider(scrapy.Spider):
name = "demo"
#allowed_domains = ["csdn.com"]
start_urls = ["http://write.blog.csdn.net/postlist"]
cookie = settings['COOKIE']  # 帶着Cookie向網頁發請求\
headers = {
    'Connection': 'keep - alive',  # 保持連接狀態
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'
}
def start_requests(self):
    yield scrapy.Request(url=self.start_urls[0],headers=self.headers,cookies=self.cookie)# 這裏帶着cookie發出請求

def parse(self, response):
    print response.body