爬蟲項目：破解極驗滑動驗證碼

一介紹

一些網站會在正常的帳號密碼認證以外加一些驗證碼，以此來明確地區分人/機行爲，從必定程度上達到反爬的效果，對於簡單的校驗碼Tesserocr就能夠搞定，以下python

但一些網站加入了滑動驗證碼，最典型的要屬於極驗滑動認證了，極驗官網：http://www.geetest.com/，下圖是極驗的登陸界面web

如今極驗驗證碼已經更新到了 3.0 版本，截至 2017 年 7 月全球已有十六萬家企業正在使用極驗，天天服務響應超過四億次，普遍應用於直播視頻、金融服務、電子商務、遊戲娛樂、政府企業等各大類型網站chrome

對於這類驗證，若是咱們直接模擬表單請求，繁瑣的認證參數與認證流程會讓你蛋碎一地，咱們能夠用selenium驅動瀏覽器來解決這個問題，大體分爲如下幾個步驟canvas

#步驟一:點擊按鈕，彈出沒有缺口的圖片

#步驟二：獲取步驟一的圖片

#步驟三：點擊滑動按鈕，彈出帶缺口的圖片

#步驟四：獲取帶缺口的圖片

#步驟五：對比兩張圖片的全部RBG像素點，獲得不同像素點的x值，即要移動的距離

#步驟六：模擬人的行爲習慣（先勻加速拖動後勻減速拖動），把須要拖動的總距離分紅一段一段小的軌跡

#步驟七：按照軌跡拖動，徹底驗證

#步驟八：完成登陸

二實現

#安裝：selenium+chrome/phantomjs

#安裝：Pillow
Pillow:基於PIL，處理python 3.x的圖形圖像庫.由於PIL只能處理到python 2.x，而這個模塊能處理Python3.x，目前用它作圖形的不少.
http://www.cnblogs.com/apexchu/p/4231041.html

C:\Users\Administrator>pip3 install pillow
C:\Users\Administrator>python3
Python 3.6.1 (v3.6.1:69c0db5, Mar 21 2017, 18:41:36) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> from PIL import Image
>>>

from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from PIL import Image
import time

def get_snap():
    '''
    對整個網頁截圖，保存成圖片，而後用PIL.Image拿到圖片對象
    :return: 圖片對象
    '''
    driver.save_screenshot('snap.png')
    page_snap_obj=Image.open('snap.png')
    return page_snap_obj

def get_image():
    '''
    從網頁的網站截圖中，截取驗證碼圖片
    :return: 驗證碼圖片
    '''
    img=wait.until(EC.presence_of_element_located((By.CLASS_NAME,'geetest_canvas_img')))
    time.sleep(2) #保證圖片刷新出來
    localtion=img.location
    size=img.size

    top=localtion['y']
    bottom=localtion['y']+size['height']
    left=localtion['x']
    right=localtion['x']+size['width']

    page_snap_obj=get_snap()
    crop_imag_obj=page_snap_obj.crop((left,top,right,bottom))
    return crop_imag_obj


def get_distance(image1,image2):
    '''
    拿到滑動驗證碼須要移動的距離
    :param image1:沒有缺口的圖片對象
    :param image2:帶缺口的圖片對象
    :return:須要移動的距離
    '''
    threshold=60
    left=57
    for i in range(left,image1.size[0]):
        for j in range(image1.size[1]):
            rgb1=image1.load()[i,j]
            rgb2=image2.load()[i,j]
            res1=abs(rgb1[0]-rgb2[0])
            res2=abs(rgb1[1]-rgb2[1])
            res3=abs(rgb1[2]-rgb2[2])
            if not (res1 < threshold and res2 < threshold and res3 < threshold):
                return i-7 #通過測試，偏差爲大概爲7
    return i-7 #通過測試，偏差爲大概爲7


def get_tracks(distance):
    '''
    拿到移動軌跡，模仿人的滑動行爲，先勻加速後勻減速
    勻變速運動基本公式：
    ①v=v0+at
    ②s=v0t+½at²
    ③v²-v0²=2as

    :param distance: 須要移動的距離
    :return: 存放每0.3秒移動的距離
    '''
    #初速度
    v=0
    #單位時間爲0.2s來統計軌跡，軌跡即0.2內的位移
    t=0.3
    #位移/軌跡列表，列表內的一個元素表明0.2s的位移
    tracks=[]
    #當前的位移
    current=0
    #到達mid值開始減速
    mid=distance*4/5

    while current < distance:
        if current < mid:
            # 加速度越小，單位時間的位移越小,模擬的軌跡就越多越詳細
            a= 2
        else:
            a=-3

        #初速度
        v0=v
        #0.2秒時間內的位移
        s=v0*t+0.5*a*(t**2)
        #當前的位置
        current+=s
        #添加到軌跡列表
        tracks.append(round(s))

        #速度已經達到v,該速度做爲下次的初速度
        v=v0+a*t
    return tracks


try:
    driver=webdriver.Chrome()
    driver.get('https://account.geetest.com/login')
    wait=WebDriverWait(driver,10)

    #步驟一：先點擊按鈕，彈出沒有缺口的圖片
    button=wait.until(EC.presence_of_element_located((By.CLASS_NAME,'geetest_radar_tip')))
    button.click()

    #步驟二：拿到沒有缺口的圖片
    image1=get_image()

    #步驟三：點擊拖動按鈕，彈出有缺口的圖片
    button=wait.until(EC.presence_of_element_located((By.CLASS_NAME,'geetest_slider_button')))
    button.click()

    #步驟四：拿到有缺口的圖片
    image2=get_image()

    # print(image1,image1.size)
    # print(image2,image2.size)

    #步驟五：對比兩張圖片的全部RBG像素點，獲得不同像素點的x值，即要移動的距離
    distance=get_distance(image1,image2)

    #步驟六：模擬人的行爲習慣（先勻加速拖動後勻減速拖動），把須要拖動的總距離分紅一段一段小的軌跡
    tracks=get_tracks(distance)
    print(tracks)
    print(image1.size)
    print(distance,sum(tracks))


    #步驟七：按照軌跡拖動，徹底驗證
    button=wait.until(EC.presence_of_element_located((By.CLASS_NAME,'geetest_slider_button')))
    ActionChains(driver).click_and_hold(button).perform()
    for track in tracks:
        ActionChains(driver).move_by_offset(xoffset=track,yoffset=0).perform()
    else:
        ActionChains(driver).move_by_offset(xoffset=3,yoffset=0).perform() #先移過一點
        ActionChains(driver).move_by_offset(xoffset=-3,yoffset=0).perform() #再退回來，是否是更像人了

    time.sleep(0.5) #0.5秒後釋放鼠標
    ActionChains(driver).release().perform()


    #步驟八：完成登陸
    input_email=driver.find_element_by_id('email')
    input_password=driver.find_element_by_id('password')
    button=wait.until(EC.element_to_be_clickable((By.CLASS_NAME,'login-btn')))

    input_email.send_keys('18611453110@163.com')
    input_password.send_keys('linhaifeng123')
    # button.send_keys(Keys.ENTER)
    button.click()

    import time
    time.sleep(200)
finally:
    driver.close()

View Code

案例：瀏覽器

from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from PIL import Image
import time

def get_snap():
    driver.save_screenshot('full_snap.png')
    page_snap_obj=Image.open('full_snap.png')
    return page_snap_obj

def get_image():
    img=driver.find_element_by_class_name('geetest_canvas_img')
    time.sleep(2)
    location=img.location
    size=img.size

    left=location['x']
    top=location['y']
    right=left+size['width']
    bottom=top+size['height']

    page_snap_obj=get_snap()
    image_obj=page_snap_obj.crop((left,top,right,bottom))
    # image_obj.show()
    return image_obj

def get_distance(image1,image2):
    start=57
    threhold=60

    for i in range(start,image1.size[0]):
        for j in range(image1.size[1]):
            rgb1=image1.load()[i,j]
            rgb2=image2.load()[i,j]
            res1=abs(rgb1[0]-rgb2[0])
            res2=abs(rgb1[1]-rgb2[1])
            res3=abs(rgb1[2]-rgb2[2])
            # print(res1,res2,res3)
            if not (res1 < threhold and res2 < threhold and res3 < threhold):
                return i-7
    return i-7

def get_tracks(distance):
    distance+=20 #先滑過一點，最後再反着滑動回來
    v=0
    t=0.2
    forward_tracks=[]

    current=0
    mid=distance*3/5
    while current < distance:
        if current < mid:
            a=2
        else:
            a=-3

        s=v*t+0.5*a*(t**2)
        v=v+a*t
        current+=s
        forward_tracks.append(round(s))

    #反着滑動到準確位置
    back_tracks=[-3,-3,-2,-2,-2,-2,-2,-1,-1,-1] #總共等於-20

    return {'forward_tracks':forward_tracks,'back_tracks':back_tracks}

try:
    # 一、輸入帳號密碼回車
    driver = webdriver.Chrome()
    driver.implicitly_wait(3)
    driver.get('https://passport.cnblogs.com/user/signin')

    username = driver.find_element_by_id('input1')
    pwd = driver.find_element_by_id('input2')
    signin = driver.find_element_by_id('signin')

    username.send_keys('linhaifeng')
    pwd.send_keys('xxxxx')
    signin.click()

    # 二、點擊按鈕，獲得沒有缺口的圖片
    button = driver.find_element_by_class_name('geetest_radar_tip')
    button.click()

    # 三、獲取沒有缺口的圖片
    image1 = get_image()

    # 四、點擊滑動按鈕，獲得有缺口的圖片
    button = driver.find_element_by_class_name('geetest_slider_button')
    button.click()

    # 五、獲取有缺口的圖片
    image2 = get_image()

    # 六、對比兩種圖片的像素點，找出位移
    distance = get_distance(image1, image2)

    # 七、模擬人的行爲習慣，根據總位移獲得行爲軌跡
    tracks = get_tracks(distance)
    print(tracks)

    # 八、按照行動軌跡先正向滑動，後反滑動
    button = driver.find_element_by_class_name('geetest_slider_button')
    ActionChains(driver).click_and_hold(button).perform()

    # 正常人類老是自信滿滿地開始正向滑動，自信地表現是瘋狂加速
    for track in tracks['forward_tracks']:
        ActionChains(driver).move_by_offset(xoffset=track, yoffset=0).perform()

    # 結果傻逼了，正常的人類停頓了一下，回過神來發現，臥槽，滑過了,而後開始反向滑動
    time.sleep(0.5)
    for back_track in tracks['back_tracks']:
        ActionChains(driver).move_by_offset(xoffset=back_track, yoffset=0).perform()

    # 小範圍震盪一下，進一步迷惑極驗後臺，這一步能夠極大地提升成功率
    ActionChains(driver).move_by_offset(xoffset=-3, yoffset=0).perform()
    ActionChains(driver).move_by_offset(xoffset=3, yoffset=0).perform()

    # 成功後，騷包人類總喜歡默默地欣賞一下本身拼圖的成果，而後依依不捨地鬆開那隻髒手
    time.sleep(0.5)
    ActionChains(driver).release().perform()

    time.sleep(10)  # 睡時間長一點，肯定登陸成功
finally:
    driver.close()

破解博客園後臺登陸

from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from PIL import Image
import time

def get_snap(driver):
    driver.save_screenshot('full_snap.png')
    page_snap_obj=Image.open('full_snap.png')
    return page_snap_obj

def get_image(driver):
    img=driver.find_element_by_class_name('geetest_canvas_img')
    time.sleep(2)
    location=img.location
    size=img.size

    left=location['x']
    top=location['y']
    right=left+size['width']
    bottom=top+size['height']

    page_snap_obj=get_snap(driver)
    image_obj=page_snap_obj.crop((left,top,right,bottom))
    # image_obj.show()
    return image_obj

def get_distance(image1,image2):
    start=57
    threhold=60

    for i in range(start,image1.size[0]):
        for j in range(image1.size[1]):
            rgb1=image1.load()[i,j]
            rgb2=image2.load()[i,j]
            res1=abs(rgb1[0]-rgb2[0])
            res2=abs(rgb1[1]-rgb2[1])
            res3=abs(rgb1[2]-rgb2[2])
            # print(res1,res2,res3)
            if not (res1 < threhold and res2 < threhold and res3 < threhold):
                return i-7
    return i-7

def get_tracks(distance):
    distance+=20 #先滑過一點，最後再反着滑動回來
    v=0
    t=0.2
    forward_tracks=[]

    current=0
    mid=distance*3/5
    while current < distance:
        if current < mid:
            a=2
        else:
            a=-3

        s=v*t+0.5*a*(t**2)
        v=v+a*t
        current+=s
        forward_tracks.append(round(s))

    #反着滑動到準確位置
    back_tracks=[-3,-3,-2,-2,-2,-2,-2,-1,-1,-1] #總共等於-20

    return {'forward_tracks':forward_tracks,'back_tracks':back_tracks}

def crack(driver): #破解滑動認證
    # 一、點擊按鈕，獲得沒有缺口的圖片
    button = driver.find_element_by_class_name('geetest_radar_tip')
    button.click()

    # 二、獲取沒有缺口的圖片
    image1 = get_image(driver)

    # 三、點擊滑動按鈕，獲得有缺口的圖片
    button = driver.find_element_by_class_name('geetest_slider_button')
    button.click()

    # 四、獲取有缺口的圖片
    image2 = get_image(driver)

    # 五、對比兩種圖片的像素點，找出位移
    distance = get_distance(image1, image2)

    # 六、模擬人的行爲習慣，根據總位移獲得行爲軌跡
    tracks = get_tracks(distance)
    print(tracks)

    # 七、按照行動軌跡先正向滑動，後反滑動
    button = driver.find_element_by_class_name('geetest_slider_button')
    ActionChains(driver).click_and_hold(button).perform()

    # 正常人類老是自信滿滿地開始正向滑動，自信地表現是瘋狂加速
    for track in tracks['forward_tracks']:
        ActionChains(driver).move_by_offset(xoffset=track, yoffset=0).perform()

    # 結果傻逼了，正常的人類停頓了一下，回過神來發現，臥槽，滑過了,而後開始反向滑動
    time.sleep(0.5)
    for back_track in tracks['back_tracks']:
        ActionChains(driver).move_by_offset(xoffset=back_track, yoffset=0).perform()

    # 小範圍震盪一下，進一步迷惑極驗後臺，這一步能夠極大地提升成功率
    ActionChains(driver).move_by_offset(xoffset=-3, yoffset=0).perform()
    ActionChains(driver).move_by_offset(xoffset=3, yoffset=0).perform()

    # 成功後，騷包人類總喜歡默默地欣賞一下本身拼圖的成果，而後依依不捨地鬆開那隻髒手
    time.sleep(0.5)
    ActionChains(driver).release().perform()

def login_cnblogs(username,password):
    driver = webdriver.Chrome()
    try:
        # 一、輸入帳號密碼回車
        driver.implicitly_wait(3)
        driver.get('https://passport.cnblogs.com/user/signin')

        input_username = driver.find_element_by_id('input1')
        input_pwd = driver.find_element_by_id('input2')
        signin = driver.find_element_by_id('signin')

        input_username.send_keys(username)
        input_pwd.send_keys(password)
        signin.click()

        # 二、破解滑動認證
        crack(driver)

        time.sleep(10)  # 睡時間長一點，肯定登陸成功
    finally:
        driver.close()

if __name__ == '__main__':
    login_cnblogs(username='linhaifeng',password='xxxx')

修訂版

三說明

　　面對簡單的滑動驗證碼，極驗實際上是有更復雜版本的，以下所示app

機器識別難度高了，大部分屌絲碼農搞不定了。然而人類也矇蔽了，易用性降到極低。ide

使用了上述驗證的網站經常會在用戶一片怨聲載道中，又將其恢復成易於破解的滑動驗證。post

驗證過程，是個破解難度、用戶體驗之間的一個平衡點。體驗越好的，破解也越容易。
嘲諷驗證碼無效，破解簡單，是很 LOW 的行爲。測試

網站方、驗證碼平臺方，知道你能破解，你牛 B。。。更難的驗證碼他們也有，只是這會嚴重下降體驗，他們不用而已。

爬蟲項目：破解極驗滑動驗證碼

一 介紹

二 實現

三 說明

一介紹

二實現

三說明