第三百三十五節，web爬蟲講解2—Scrapy框架爬蟲—豆瓣登陸與利用打碼接口實現自動識別驗證碼

時間 2019-11-24

標籤三百三十五 web 爬蟲講解 scrapy 框架豆瓣登陸利用接口實現自動識別驗證碼欄目 HTML 简体版

原文原文鏈接

第三百三十五節，web爬蟲講解2—Scrapy框架爬蟲—豆瓣登陸與利用打碼接口實現自動識別驗證碼html

打碼接口文件web

# -*- coding: cp936 -*-

import sys
import os
from ctypes import *

# 下載接口放目錄 http://www.yundama.com/apidoc/YDM_SDK.html
# 錯誤代碼請查詢 http://www.yundama.com/apidoc/YDM_ErrorCode.html
# 全部函數請查詢 http://www.yundama.com/apidoc

print('>>>正在初始化...')

YDMApi = windll.LoadLibrary('H:/py/16/adc/adc/yamzhm/yundamaAPI-x64')

# 1. http://www.yundama.com/index/reg/developer 註冊開發者帳號
# 2. http://www.yundama.com/developer/myapp 添加新軟件
# 3. 使用添加的軟件ID和密鑰進行開發，享受豐厚分紅
 appId = 3818   # 軟件ＩＤ，開發者分紅必要參數。登陸開發者後臺【個人軟件】得到！
appKey = b'6ff56e09e89fffe45c14abe624af9456'     # 軟件密鑰，開發者分紅必要參數。登陸開發者後臺【個人軟件】得到！

# print('軟件ＩＤ：%d\r\n軟件密鑰：%s' % (appId, appKey))

# 注意這裏是普通會員帳號，不是開發者帳號，註冊地址 http://www.yundama.com/index/reg/user
# 開發者能夠聯繫客服領取免費調試題分
 username = b'adc8868' password = b'adc279819'

if username == b'test':
    exit('\r\n>>>請先設置用戶名密碼')
    
####################### 一鍵識別函數 YDM_EasyDecodeByPath #######################

# print('\r\n>>>正在一鍵識別...')
#
# # 例：1004表示4位字母數字，不一樣類型收費不一樣。請準確填寫，不然影響識別率。在此查詢全部類型 http://www.yundama.com/price.html
# codetype = 1004
#
# # 分配30個字節存放識別結果
# result = c_char_p(b"                              ")
#
# # 識別超時時間 單位：秒
# timeout = 60
#
# # 驗證碼文件路徑
# filename = b'H:/py/16/adc/adc/yamzhm/yan_zhe_nma.jpg'
#
# # 一鍵識別函數，無需調用 YDM_SetAppInfo 和 YDM_Login，適合腳本調用
# captchaId = YDMApi.YDM_EasyDecodeByPath(username, password, appId, appKey, filename, codetype, timeout, result)
#
# print("一鍵識別：驗證碼ID：%d，識別結果：%s" % (captchaId, result.value))

################################################################################


########################## 普通識別函數 YDM_DecodeByPath #########################



# print('\r\n>>>正在登錄...')

# 第一步：初始化雲打碼，只需調用一次便可
YDMApi.YDM_SetAppInfo(appId, appKey) # 第二步：登錄雲打碼帳號，只需調用一次便可
uid = YDMApi.YDM_Login(username, password) if uid > 0: # print('>>>正在獲取餘額...')
    
    # 查詢帳號餘額，按須要調用
    balance = YDMApi.YDM_GetBalance(username, password) print('登錄成功，用戶名：%s，剩餘題分：%d' % (username, balance)) print('\r\n>>>正在普通識別...') # 第三步：開始識別

    # 例：1004表示4位字母數字，不一樣類型收費不一樣。請準確填寫，不然影響識別率。在此查詢全部類型 http://www.yundama.com/price.html
    codetype = 3000

    # 分配30個字節存放識別結果
    result = c_char_p(b"                              ") # 驗證碼文件路徑
    filename = b'H:/py/16/adc/adc/yamzhm/yan_zhe_nma.jpg'

    # 普通識別函數，需先調用 YDM_SetAppInfo 和 YDM_Login 初始化
    captchaId = YDMApi.YDM_DecodeByPath(filename, codetype, result) print("普通識別：驗證碼ID：%d，識別結果：%s" % (captchaId, result.value)) else: print('登錄失敗，錯誤代碼：%d' % uid) ################################################################################

# print('\r\n>>>錯誤代碼請查詢 http://www.yundama.com/apidoc/YDM_ErrorCode.html')

# input('\r\n測試完成，按回車鍵結束...')

實現文件api

# -*- coding: utf-8 -*-
import os
from urllib import request                     #導入request模塊

import scrapy
from scrapy.http import Request,FormRequest


class PachSpider(scrapy.Spider):                            #定義爬蟲類，必須繼承scrapy.Spider
    name = 'pach'                                           #設置爬蟲名稱
    allowed_domains = ['douban.com']                    #爬取域名
    # start_urls = ['']                                     #爬取網址,只適於不須要登陸的請求，由於無法設置cookie等信息

    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}  #設置瀏覽器用戶代理

    def start_requests(self):
        """第一次請求一下登陸頁面，設置開啓cookie使其獲得cookie，設置回調函數"""
        print("第一次請求頁面獲取Cookies.........!")
        return [Request('https://accounts.douban.com/login',meta={'cookiejar':1},callback=self.parse,headers=self.header)]


    def parse(self, response):
        # 響應Cookies
        Cookie1 = response.headers.getlist('Set-Cookie')                            #查看一下響應Cookie，也就是第一次訪問註冊頁面時後臺寫入瀏覽器的Cookie
        print('後臺首次寫入的響應Cookies：',Cookie1)

        #判斷是否出現驗證碼
        yzhm = response.xpath('//img[@id="captcha_image"]/@src').extract() if len(yzhm) > 0: print("出現驗證碼，請輸入驗證碼") print('驗證碼圖片地址：',yzhm) #將驗證碼圖片保存到本地 file_path = os.path.join(os.getcwd() + '/adc/yamzhm/yan_zhe_nma.jpg') # 拼接圖片保存路徑 print(file_path) request.urlretrieve(yzhm[0], file_path) # 將圖片保存到本地，參數1獲取到的src，參數2保存路徑 #使用在線打碼，自動識別驗證碼  from adc.yamzhm import YDMPython3 #導入打碼模塊 yan_zhen_ma = str(YDMPython3.result.value,encoding='utf-8') #接收打碼結果 print('寫入驗證碼',yan_zhen_ma) data = { # 設置用戶登陸信息，對應抓包獲得字段 'source': 'None', 'redir': 'https://www.douban.com/people/81309370/', 'form_email': '729088188@qq.com', 'form_password': 'adc279819', 'login': '登陸', 'captcha-solution': yan_zhen_ma } print('第二次post請求攜帶Cookies受權，登陸中........!') """第二次用表單post請求，攜帶Cookie、瀏覽器代理、用戶登陸信息，進行登陸給Cookie受權""" return [FormRequest.from_response(response, url='https://accounts.douban.com/login', #真實post地址 meta={'cookiejar':response.meta['cookiejar']}, headers=self.header, formdata=data, callback=self.next, )] else:  data = { # 設置用戶登陸信息，對應抓包獲得字段 'source': 'None', 'redir': 'https://www.douban.com/people/81309370/', 'form_email': '729088188@qq.com', 'form_password': 'adc279819', 'login': '登陸', } print('第二次post請求攜帶Cookies受權，登陸中........!') """第二次用表單post請求，攜帶Cookie、瀏覽器代理、用戶登陸信息，進行登陸給Cookie受權""" return [FormRequest.from_response(response, url='https://accounts.douban.com/login', # 真實post地址 meta={'cookiejar': response.meta['cookiejar']}, headers=self.header, formdata=data, callback=self.next, )] def next(self,response):
        # 請求Cookie
        Cookie2 = response.request.headers.getlist('Cookie')
        print('登陸時攜帶請求的Cookies：',Cookie2)

        dlujieg = response.xpath('/html/head/title/text()').extract()
        if dlujieg:
            print('登陸響應結果：',dlujieg)
        else:
            jieg = response.body.decode("utf-8")   #登陸後能夠查看一下登陸響應信息
            print('登陸響應結果：',jieg)

        print('第三次請求攜帶受權Cookie，請求須要登陸才能查看的頁面.........!')
        yield Request('https://www.douban.com/people/81309370/',meta={'cookiejar':True},headers=self.header,callback=self.next2)


    def next2(self,response):
        # 請求Cookie
        Cookie3 = response.request.headers.getlist('Cookie')
        print('查看須要登陸才能夠訪問的頁面攜帶Cookies：',Cookie3)

        leir = response.xpath('/html/head/title/text()').extract()  #獲得我的中心頁面
        print('最終內容',leir)
        # leir2 = response.xpath('//div[@class="set-tags"]/a/text()').extract()  # 獲得我的中心頁面
        # print(leir2)