驗證碼做爲一種天然人的機器人的判別工具,被普遍的用於各類防止程序作自動化的場景中。傳統的字符型驗證安全性已經名不副實的狀況下,各類新型的驗證碼如雨後春筍般涌現。目前最多見的一種形式就是「滑動拼圖式」前端
關鍵字:驗證碼,圖靈測試,圖像識別,python,破解python
關於滑動式驗證,最先由國內某網絡安全公司首次提出的行爲式驗證,以滑動拼圖解鎖的方式呈如今世人面前。而後大概過了好幾年以後,各類各樣的滑動式驗證產品都出來了,那麼這些看似同樣的產品,它們的安全性到底如何呢?安全
本文特地挑選出了一些後來者的小廠商的滑動式驗證來作下實驗,僅從第一步的圖像學上分析一下安全性。由於個人主技術路線是圖像學,關於前端的js並不熟悉,因此就只在圖像學上點到即止便可。僅供會一些自動化技術的同窗提供一些知識補充吧。網絡
因爲研究的實驗對象實在是太簡單,因此本文涉及的一些圖像學的知識也不難,基本上python的初級選手就能夠跑通本程序。僅供你們學習學習。ide
某小站點上由小廠商提供的「滑動式驗證」:工具
使用python寫一個簡單的爬蟲自動化腳本,將此網站上的驗證碼資源多請求幾回,並保存到本地,觀查圖片特色。學習
通常狀況下,這一步是必須的,多下載一些圖片,不少規律是能夠一眼看出的。好比,從公開的頁面中,連續請求此驗證的資源 100次,下載100張圖片後。測試
一眼看上去,此驗證的圖片素材都只有一種模式,那麼就放心了,由於這個問題就比較單一,而不是多模式下你必需要解決多個問題。網站
將這種單一模式的圖片篩選一張出來,以下:設計
發現以下特色:
顯然,設計這個驗證圖片的人沒啥安全方面的經驗,有以下兩個產品細節沒有注意:
因而使得識別此圖片的位置變得極其簡單。
在前面一小節中,咱們只是直觀的看到了這些圖片的一些特別,可是要解答這個題目,還須要進行量化,量化後才能程序化,程序化後才能全自動化。
使用matplotlib工具打開此圖片。量化獲得以下參數:
很明顯,只要將第一張圖和第三張圖相應的像素相減,神奇的事情就發生了:
「左上」 減去 「右下」 就獲得 「左下」的結果。
這個時候,對x方向的R通道的像素點進行累加統計。
獲得以下的統計圖:
而後對這個曲線求一階導數或者只要發現有個突變值超過最大像素值的某百分比時,便可獲得最左邊的那個y方向突變點的位置。
到此爲止,此圖片的位置已經成功解出。
下面是相應的python代碼:
import numpy as np def get_boundary(mask, axis, ratio=0.6): """ 對灰度圖的某個channel作像素統計 """ sum_along_axis = np.sum(mask, axis=axis) max_value = np.max(sum_along_axis) bound_value = max_value * ratio bvalue = (sum_along_axis >= bound_value).astype('int8') return np.where(bvalue != 0)[0][0] def get_predict_ans(img): """ 根據分類出來的圖像,找到相應的圖像位置 傳入二進制的圖片,返回答案 :param img: :return: """ nd_img = np.array(img) w_pos = get_boundary(nd_img, 0) # 根據分佈圖找到邊界位置 return w_pos
因爲我不會前端技術,因此個人工做就到此爲止。
可是後來有位會前端的網友研究了一下那個網站的驗證碼前端代碼,聽說其防禦措施也只有圖片這一層,只須要把答案放到http的接口裏面上傳,再加個時間標記就能穩穩的過了。而後借鑑本文解圖片答案的思路,基本上能夠達到:1s經過60次,成功率大概70%吧。
對滑動式驗證有興趣的同窗,若是大家想練手的,能夠多去找一些新入場這個領域的廠商試試,基本上新入場的團隊的都會犯一些很是低級的錯誤,可是請只是技術上在本地本身機器上跑跑試試,安全領域有風險,請自愛。
同時告誡一些本身想如今開始作滑動式驗證碼的廠商,若是投入不夠還有相應的技術和產品積累不夠,進入這個領域的時候,請慎重,由於你的不成熟的工做只會成爲本系統最大的漏洞。
可能有不少讀者會以爲本文的內容不夠幹,但願來點更刺激有趣的,請穩步下面的合輯文章,知足你的好奇心。