第三百四十三節,Python分佈式爬蟲打造搜索引擎Scrapy精講—scrapy模擬登錄和知乎倒立文字驗證碼識別html
第一步。首先下載,大神者也的倒立文字驗證碼識別程序python
下載地址:https://github.com/muchrooms/zheyegit
注意:此程序依賴如下模塊包github
Keras==2.0.1
Pillow==3.4.2
jupyter==1.0.0
matplotlib==1.5.3
numpy==1.12.1
scikit-learn==0.18.1
tensorflow==1.0.1
h5py==2.6.0瀏覽器
numpy-1.13.1+mklcookie
咱們用豆瓣園來加速安以上依賴裝如:app
pip install -i https://pypi.douban.com/simple h5py==2.6.0
若是是win系統,可能存在安裝失敗的可能,若是那個包安裝失敗,就到 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到win對應的版本下載到本地安裝,如:dom
pip install h5py-2.7.0-cp35-cp35m-win_amd64.whl
第二步,將者也的,驗證碼識別程序的zheye文件夾放到工程目錄裏scrapy
第三步,爬蟲實現分佈式
start_requests()方法,起始url函數,會替換start_urls
Request()方法,get方式請求網頁
url=字符串類型url
headers=字典類型瀏覽器代理
meta=字典類型的數據,會傳遞給回調函數
callback=回調函數名稱
scrapy.FormRequest()post方式提交數據
url=字符串類型url
headers=字典類型瀏覽器代理
meta=字典類型的數據,會傳遞給回調函數
callback=回調函數名稱
formdata=字典類型,要提交的數據字段
response.headers.getlist('Set-Cookie') 獲取響應Cookies
response.request.headers.getlist('Cookie') 獲取請求Cookies
# -*- coding: utf-8 -*- import scrapy from scrapy.http import Request,FormRequest import re class PachSpider(scrapy.Spider): #定義爬蟲類,必須繼承scrapy.Spider name = 'pach' #設置爬蟲名稱 allowed_domains = ['zhihu.com'] #爬取域名 # start_urls = [''] #爬取網址,只適於不須要登陸的請求,由於無法設置cookie等信息 header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'} #設置瀏覽器用戶代理 def start_requests(self): #起始url函數,會替換start_urls """第一次請求一下登陸頁面,設置開啓cookie使其獲得cookie,設置回調函數""" return [Request( url='https://www.zhihu.com/#signin', headers=self.header, meta={'cookiejar':1}, #開啓Cookies記錄,將Cookies傳給回調函數 callback=self.parse )] def parse(self, response): # 響應Cookies Cookie1 = response.headers.getlist('Set-Cookie') #查看一下響應Cookie,也就是第一次訪問註冊頁面時後臺寫入瀏覽器的Cookie print('後臺首次寫入的響應Cookies:',Cookie1) #獲取xsrf密串 xsrf = response.xpath('//input[@name="_xsrf"]/@value').extract()[0] print('獲取xsrf密串:' + xsrf) #獲取驗證碼 import time t = str(int(time.time()*1000)) captcha_url = 'https://www.zhihu.com/captcha.gif?r={0}&type=login&lang=cn'.format(t) #構造驗證碼請求地址 yield Request(url=captcha_url, #請求驗證碼圖片 headers=self.header, meta={'cookiejar':response.meta['cookiejar'],'xsrf':xsrf}, #將Cookies和xsrf密串傳給回調函數 callback=self.post_tj ) def post_tj(self, response): with open('yzhm.jpg','wb') as f: #打開圖片句柄 f.write(response.body) #將驗證碼圖片寫入本地 f.close() #關閉句柄 #--------------------------------------------者也驗證碼識別------------------------------------------ from zheye import zheye #導入者也倒立文字驗證碼識別模塊對象 z = zheye() #實例化對象 positions = z.Recognize('yzhm.jpg') #將驗證碼本地路徑傳入Recognize方法識別,返回倒立圖片的座標 # print(positions) #默認倒立文字的y座標在前,x座標在後 #知乎網要求的倒立文字座標是x軸在前,y軸在後,因此咱們須要定義一個列表來改變默認的,倒立文字座標位置 pos_arr = [] if len(positions) == 2: if positions[0][1] > positions[1][1]: #判斷列表裏第一個元祖裏的第二個元素若是大於,第二個元祖裏的第二個元素 pos_arr.append([positions[1][1],positions[1][0]]) pos_arr.append([positions[0][1], positions[0][0]]) else: pos_arr.append([positions[0][1], positions[0][0]]) pos_arr.append([positions[1][1], positions[1][0]]) else: pos_arr.append([positions[0][1], positions[0][0]]) print('處理後的驗證碼座標',pos_arr) # --------------------------------------------者也驗證碼識別結束------------------------------------------ if len(pos_arr) == 2: data = { # 設置用戶登陸信息,對應抓包獲得字段 '_xsrf': response.meta['xsrf'], 'password': '279819', 'captcha': '{"img_size":[200,44],"input_points":[[%.2f,%f],[%.2f,%f]]}' %( pos_arr[0][0] / 2, pos_arr[0][1] / 2, pos_arr[1][0] / 2, pos_arr[1][1] / 2), #由於驗證碼識別默認是400X88的尺寸因此要除以2 'captcha_type': 'cn', 'phone_num': '15284816568' } else: data = { # 設置用戶登陸信息,對應抓包獲得字段 '_xsrf': response.meta['xsrf'], 'password': '279819', 'captcha': '{"img_size":[200,44],"input_points":[[%.2f,%f]]}' %( pos_arr[0][0] / 2, pos_arr[0][1] / 2), 'captcha_type': 'cn', 'phone_num': '15284816568' } print('登陸提交數據',data) print('登陸中....!') """第二次用表單post請求,攜帶Cookie、瀏覽器代理、用戶登陸信息,進行登陸給Cookie受權""" return [scrapy.FormRequest( url='https://www.zhihu.com/login/phone_num', #真實post地址 meta={'cookiejar':response.meta['cookiejar']}, #接收第傳過來的Cookies headers=self.header, formdata=data, callback=self.next )] def next(self,response): # 請求Cookie Cookie2 = response.request.headers.getlist('Cookie') print('登陸時攜帶請求的Cookies:',Cookie2) jieg = response.body.decode("utf-8") #登陸後能夠查看一下登陸響應信息 print('登陸響應結果:',jieg) print('正在請須要登陸才能夠訪問的頁面....!') """登陸後請求須要登陸才能查看的頁面,如我的中心,攜帶受權後的Cookie請求""" yield Request( url='https://www.zhihu.com/people/lin-gui-xiu-41/activities', headers=self.header, meta={'cookiejar':True}, callback=self.next2 ) def next2(self,response): # 請求Cookie Cookie3 = response.request.headers.getlist('Cookie') print('查看須要登陸才能夠訪問的頁面攜帶Cookies:',Cookie3) leir = response.xpath('/html/head/title/text()').extract() #獲得我的中心頁面 print('最終內容',leir) # print(response.body.decode("utf-8"))