第三百四十三節，Python分佈式爬蟲打造搜索引擎Scrapy精講—scrapy模擬登錄和知乎倒立文字驗證碼識別

時間 2019-12-17

標籤三百四十三 python 分佈式爬蟲打造搜索引擎 scrapy 模擬登錄倒立文字驗證碼識別欄目 Python 简体版

原文原文鏈接

第三百四十三節，Python分佈式爬蟲打造搜索引擎Scrapy精講—scrapy模擬登錄和知乎倒立文字驗證碼識別html

第一步。首先下載，大神者也的倒立文字驗證碼識別程序python

下載地址：https://github.com/muchrooms/zheyegit

注意：此程序依賴如下模塊包github

　　Keras==2.0.1
　　Pillow==3.4.2
　　jupyter==1.0.0
　　matplotlib==1.5.3
　　numpy==1.12.1
　　scikit-learn==0.18.1
　　tensorflow==1.0.1
　　h5py==2.6.0瀏覽器

numpy-1.13.1+mklcookie

咱們用豆瓣園來加速安以上依賴裝如：app

pip install -i https://pypi.douban.com/simple h5py==2.6.0

若是是win系統，可能存在安裝失敗的可能，若是那個包安裝失敗，就到 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到win對應的版本下載到本地安裝，如：dom

pip install h5py-2.7.0-cp35-cp35m-win_amd64.whl

第二步，將者也的，驗證碼識別程序的zheye文件夾放到工程目錄裏scrapy

第三步，爬蟲實現分佈式

start_requests()方法，起始url函數，會替換start_urls

Request()方法，get方式請求網頁
　　url=字符串類型url
　　headers=字典類型瀏覽器代理
　　meta=字典類型的數據，會傳遞給回調函數
　　callback=回調函數名稱

scrapy.FormRequest()post方式提交數據
　　url=字符串類型url
　　headers=字典類型瀏覽器代理
　　meta=字典類型的數據，會傳遞給回調函數
　　callback=回調函數名稱
　　formdata=字典類型，要提交的數據字段

response.headers.getlist('Set-Cookie') 獲取響應Cookies
response.request.headers.getlist('Cookie') 獲取請求Cookies

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest
import re

class PachSpider(scrapy.Spider):                            #定義爬蟲類，必須繼承scrapy.Spider
    name = 'pach'                                           #設置爬蟲名稱
    allowed_domains = ['zhihu.com']                    #爬取域名
    # start_urls = ['']                                     #爬取網址,只適於不須要登陸的請求，由於無法設置cookie等信息

    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}  #設置瀏覽器用戶代理

    def start_requests(self):    #起始url函數，會替換start_urls
        """第一次請求一下登陸頁面，設置開啓cookie使其獲得cookie，設置回調函數"""
        return [Request(
            url='https://www.zhihu.com/#signin',
            headers=self.header,
            meta={'cookiejar':1},       #開啓Cookies記錄，將Cookies傳給回調函數
            callback=self.parse
        )]


    def parse(self, response):
        # 響應Cookies
        Cookie1 = response.headers.getlist('Set-Cookie')                            #查看一下響應Cookie，也就是第一次訪問註冊頁面時後臺寫入瀏覽器的Cookie
        print('後臺首次寫入的響應Cookies：',Cookie1)

        #獲取xsrf密串
        xsrf = response.xpath('//input[@name="_xsrf"]/@value').extract()[0] print('獲取xsrf密串：' + xsrf)

        #獲取驗證碼
        import time
        t = str(int(time.time()*1000))
        captcha_url = 'https://www.zhihu.com/captcha.gif?r={0}&type=login&lang=cn'.format(t)   #構造驗證碼請求地址
        yield Request(url=captcha_url,                                                         #請求驗證碼圖片
                      headers=self.header,
                      meta={'cookiejar':response.meta['cookiejar'],'xsrf':xsrf},               #將Cookies和xsrf密串傳給回調函數
                      callback=self.post_tj
                      )

    def post_tj(self, response):
        with open('yzhm.jpg','wb') as f:        #打開圖片句柄
            f.write(response.body)              #將驗證碼圖片寫入本地
            f.close()                           #關閉句柄

#--------------------------------------------者也驗證碼識別------------------------------------------

        from zheye import zheye                 #導入者也倒立文字驗證碼識別模塊對象
        z = zheye()                             #實例化對象
        positions = z.Recognize('yzhm.jpg')     #將驗證碼本地路徑傳入Recognize方法識別，返回倒立圖片的座標
        # print(positions) #默認倒立文字的y座標在前，x座標在後

        #知乎網要求的倒立文字座標是x軸在前，y軸在後，因此咱們須要定義一個列表來改變默認的，倒立文字座標位置
        pos_arr = [] if len(positions) == 2: if positions[0][1] > positions[1][1]:                      #判斷列表裏第一個元祖裏的第二個元素若是大於,第二個元祖裏的第二個元素
                pos_arr.append([positions[1][1],positions[1][0]]) pos_arr.append([positions[0][1], positions[0][0]]) else: pos_arr.append([positions[0][1], positions[0][0]]) pos_arr.append([positions[1][1], positions[1][0]]) else: pos_arr.append([positions[0][1], positions[0][0]]) print('處理後的驗證碼座標',pos_arr) # --------------------------------------------者也驗證碼識別結束------------------------------------------

        if len(pos_arr) == 2:
            data = {                                                                    # 設置用戶登陸信息，對應抓包獲得字段
                '_xsrf': response.meta['xsrf'],
                'password': '279819',
                'captcha': '{"img_size":[200,44],"input_points":[[%.2f,%f],[%.2f,%f]]}' %(
                    pos_arr[0][0] / 2, pos_arr[0][1] / 2, pos_arr[1][0] / 2, pos_arr[1][1] / 2),  #由於驗證碼識別默認是400X88的尺寸因此要除以2
                'captcha_type': 'cn',
                'phone_num': '15284816568'
            }
        else:
            data = {                                                                    # 設置用戶登陸信息，對應抓包獲得字段
                '_xsrf': response.meta['xsrf'],
                'password': '279819',
                'captcha': '{"img_size":[200,44],"input_points":[[%.2f,%f]]}' %(
                    pos_arr[0][0] / 2, pos_arr[0][1] / 2),
                'captcha_type': 'cn',
                'phone_num': '15284816568'
            }

        print('登陸提交數據',data)

        print('登陸中....!')
        """第二次用表單post請求，攜帶Cookie、瀏覽器代理、用戶登陸信息，進行登陸給Cookie受權"""
        return [scrapy.FormRequest(
            url='https://www.zhihu.com/login/phone_num',                        #真實post地址
            meta={'cookiejar':response.meta['cookiejar']},                      #接收第傳過來的Cookies
            headers=self.header,
            formdata=data,
            callback=self.next
        )]


    def next(self,response):
        # 請求Cookie
        Cookie2 = response.request.headers.getlist('Cookie')
        print('登陸時攜帶請求的Cookies：',Cookie2)

        jieg = response.body.decode("utf-8")   #登陸後能夠查看一下登陸響應信息
        print('登陸響應結果：',jieg)

        print('正在請須要登陸才能夠訪問的頁面....!')

        """登陸後請求須要登陸才能查看的頁面，如我的中心，攜帶受權後的Cookie請求"""
        yield Request(
            url='https://www.zhihu.com/people/lin-gui-xiu-41/activities',
            headers=self.header,
            meta={'cookiejar':True},
            callback=self.next2
        )


    def next2(self,response):
        # 請求Cookie
        Cookie3 = response.request.headers.getlist('Cookie')
        print('查看須要登陸才能夠訪問的頁面攜帶Cookies：',Cookie3)

        leir = response.xpath('/html/head/title/text()').extract()  #獲得我的中心頁面
        print('最終內容',leir) # print(response.body.decode("utf-8"))