論文筆記-巧妙的驗證碼攻擊

時間 2019-12-19

標籤論文筆記巧妙驗證碼攻擊欄目系統網絡简体版

原文原文鏈接

論文題目：Yet Another Text Captcha Solver A Generative Adversarial Network Based Approach算法

論文原做者：GuixinYe,ZhanyongTang∗,DingyiFang,ZhanxingZhu,YansongFeng, Pengfei Xu, Xiaojiang Chen, and Zheng Wang安全

原文會議或期刊： CCS’18, October 15-19, 2018, Toronto, ON, Canada微信

原文連接：https://dl.acm.org/citation.cfm?doid=3243734.3243754網絡

原文主要內容：基於生成對抗網絡方法，構建了一個合成驗證碼的模型和一個消除驗證碼干擾特徵的模型，利用CNN（擴展的LeNet-5方法）識別消除干擾特徵的驗證碼，最終實現驗證碼識別準確率的較大提高框架

做者：苦瓜@DAS機器學習

0 動機

某晚師兄在羣裏轉發了一篇微信文章，介紹我國西北大學教授在驗證碼識別領域的研究成果，因其在驗證碼識別領域有較大突破，論文發表在ACM CCS-18上，並得到了最佳論文提名，甚至被國外一些媒體進行了報道，文章寫道：「該項研究比2017年發表在Science上的研究成果平均高出20%」。當時我就震驚了，這麼🐮🍺的🐎？因而花了兩天時間讀完了這篇文章，發現：💉💧🐮🍺！ide

1 一個自信的摘要和引言

原文做者（如下均簡稱做者）在摘要部分開門見山，指出此次的識別模型與前人工做不一樣，不須要人工收集大量數據並打標籤，使用極小的數據集就能達到很是好的表現，並且一塊桌面級的GPU便可在0.05s之內準確秒殺文本驗證碼，最後但願做者的研究結果能激勵社會從新設計和實施文本驗證碼策略。學習

然後做者在引言（Introuduction）部分主要介紹了字體

本次使用的驗證碼來源——Alexa評出的2018年最受歡迎的50個網站中的32個使用文本驗證碼的網站，這些網站有不一樣的驗證碼安全方案。網站
文本驗證碼在當今廣泛使用，近年來也有不少這方面的研究，其中一些成功的策略是分割驗證碼中每一個字符再進行識別，但隨着驗證碼的生成規則越發複雜（例如加入干擾背景，扭曲文字，重疊文字），這些方法開始失效
文章提出一種基於深度學習的通用、省力且有效的自動化識別文本驗證碼的方法
- 利用生成對抗網絡自動生成大量的合成驗證碼，用於訓練識別器
- 用一個較小的真實驗證碼數據集（500張驗證碼），經過遷移學習微調基礎識別器參數
- 由於不須要人工的收集大量驗證碼並打標籤，因此極大的節省了人力

在引言的最後，做者寫到，咱們這篇paper也沒幹什麼別的，大概三件事：

第一個，首次使用生成對抗網絡方法自動生成訓練數據，構建文本驗證碼求解器（Text-Based Solvers）

第二個，首次應用遷移學習訓練文本驗證碼求解器

第三個，提供一種新的看法——文本驗證碼的安全特徵（例如波浪文字、橫線和文字重疊等各類干擾）在深度學習方法面前很是脆弱。

2 開門見山——直擊模型詳情

做者在引言後寫了背景介紹，篇幅極短，主要介紹文中使用的六種被廣泛使用的驗證碼安全策略（如圖2-1）和生成對抗網絡是什麼（後文將詳細舉例說明，這裏不累述）。

圖2-1 六種驗證碼安全特徵詳情

然後便直接開始介紹文章的重點，整個模型的構建和每一個部分的詳細狀況。固然做者很是瞭解咱們想看到什麼，因此將模型的大概框架和每一個模塊都作了精美的圖用以解釋，而我我的也作了一些圖更清楚的介紹每一個模塊的輸入和輸出，以便讀者理清做者的模型先後關係。

2.1 總體模型

圖2-2 獲得驗證碼求解器的總體模型

① 用極小的目標驗證碼數據集，經過生成對抗網絡方法訓練驗證碼合成器，然後由圖片合成器自動合成大量與真實驗證碼很是類似的驗證碼，以及乾淨的驗證碼（沒有前面提到的六種驗證碼安全特徵）。
② 用合成的驗證碼和乾淨的驗證碼訓練預處理模型，這個模型最終效果是輸入帶有安全特徵的驗證碼圖片，輸出一個自動去除了安全特徵並標準化字體樣式後的「乾淨驗證碼」。
③ 將合成驗證碼輸入到訓練好的預處理模型，產生大量」乾淨驗證碼「用於訓練基礎求解器
④ 將真實驗證碼輸入到訓練好的預處理模型，產生少許」乾淨驗證碼」，經過遷移學習微調基礎求解器，獲得最終的微調求解器。

看完整個得到求解器的過程後，也許你會有不少疑問，驗證碼合成器是怎麼作到生成與真實驗證碼極其類似的圖片的？，驗證碼合成器生成的乾淨驗證碼和預處理模型輸出的乾淨驗證碼有什麼區別，爲何要用遷移學習微調一次，不用行嗎？接下來讓咱們詳細解析各個模型，解開這些疑惑，看看做者的idea究竟有多巧妙

2.2 驗證碼合成器

還記得咱們以前動機裏面提到了Science也有驗證碼領域的文章嗎，做者在原文中簡述道：science的文章展現出，構建一個基於CNN的有效驗證碼求解器須要超過230萬張不一樣的驗證碼，但對於這麼大的數據集，收集數據和打標籤工做是很是耗費人力的工程，因此咱們提出了一種最小化人力投入的方法——驗證碼合成器，讓機器自動合成百萬級數量的驗證碼，還都帶有標籤。

根據做者的描述和原文圖片，我作了一個更有容易理解先後關係的圖片（如圖2-3所示）

圖2-3 驗證碼生成器訓練過程

一、根據目標驗證碼方案的字符集設置（英文、數字的包含狀況）和字符參數設置（如顏色，位置，旋轉等）自動生成不帶有安全特徵的驗證碼——這個驗證碼就是就是徹底乾淨驗證碼，而預處理模塊去除安全特徵後的乾淨驗證碼可能仍是有一些干擾像素點。
二、將不帶有安全特徵的驗證碼輸入到生成器網絡中——生成器網絡由CNN構成，能夠在像素級修改驗證碼，目標是生成與真實驗證碼類似的帶有安全特徵的驗證碼。
三、將合成的驗證碼與數據集中的真實驗證碼一塊兒交給判別網絡進行鑑別，目標是鑑別出哪些圖片的合成的驗證碼圖片，當判別網絡的準確性低於5%時中止迭代（例如100張合成圖片，只有4張被斷定爲合成圖片）；當不知足終止條件時，將分類的準確性反饋給生成網絡和判別網絡，以調整各自的參數。如此，生成網絡和判別網絡的目標截然相反，以此相互競爭，造成生成對抗網絡。對生成網絡而言能夠不斷提升合成驗證碼與真實驗證碼的類似程度；對判別網絡而言，能夠不斷加強其鑑別圖片是否爲合成圖片的能力。
四、當終止條件知足時，說明生成器網絡合成的驗證碼圖片與真實的驗證碼圖片以及很是類似了，此時中止生成對抗網絡的迭代，獲得一個驗證碼合成器。

這裏從原文中截取一個樣例，展現驗證碼合成器的強大威力。

圖2-4 真實驗證碼與合成驗證碼對比

圖2-4中，每組對比圖的左邊是真實驗證碼圖片，右邊是合成圖片。

2.3 預處理模型（安全特徵消除器）

前面的驗證碼合成器，已是一個很是不錯的idea，做者立馬又拿出一個一樣厲害的武器——基於生成對抗網絡的預處理模型，目標是去除合成圖片的安全特徵，讓其迴歸到便於機器學習方法識別出文字的圖片。預處理模型具體流程以下圖所示（圖片來源於論文原文）

圖2-5 預處理模型的訓練過程

預訓練：左邊灰色部分，做者將驗證碼合成器合成的安全驗證碼和徹底乾淨驗證碼（參見2.2節的步驟1）預先對生成網絡和判別網絡進行訓練。（做者並未說起爲何要進行預訓練，我的猜想是爲了加快訓練速度）
生成網絡：右下方藍色部分，採用Pix2Pix圖片轉化框架（一種能夠將圖片樣式進行的算法），目標是去除合成驗證碼的噪音、橫線等，而且將字體標準化（例如將中空的字體填滿，將文字間距拉大等），使之於徹底乾淨驗證碼類似。因此生成網絡的輸入是一個帶有安全特徵的驗證碼圖片，輸出是一個被去除了安全特徵的驗證碼圖片，例如圖中的安全驗證碼被去除了一些橫線和下方的可愛小熊圖案。
判別網絡：右上方紫色部分，將去掉安全特徵的驗證碼和對應的徹底乾淨驗證碼同時輸入，讓判別網絡對二者進行鑑別，目標是選出被生成網絡去掉安全特徵的驗證碼。生成網絡和當判別網絡的目標相反，相互競爭，當判別網絡的準確性低於5%時中止迭代。
當終止條件達成後，就要進入驗證碼求解器，須要強調的是，全部驗證碼圖片輸入到驗證碼求解器前，都要通過預處理模型，去掉其安全特徵，提升識別準確率。

注意：訓練預處理模型這一步很是重要，是論文模型最終能吊打其餘驗證碼識別模型的一個關鍵點。

2.4 驗證碼求解器

所謂驗證碼求解器（Captcha Solvers），意思就是輸入驗證碼圖片獲得其中文本的模型。這裏繼續使用原文精美的圖片來介紹。

圖2-6 驗證碼求解器訓練詳情

求解器使用LeNet-5模型進行構建，LeNet-5是一種經典的CNN模型，做者通過實驗對比發如今目前的實驗條件下，其餘算法的效果與之差距不大，但LeNet-5簡單高效，而且在遷移學習時對數據集大小的要求最低。

(a)步驟——訓練基礎求解器

將大量的合成圖片通過預處理模型的處理後，去除了安全特徵，再輸入到基礎求解器進行訓練。
這一部分使用了20萬張合成驗證碼圖片，由於每張合成驗證碼圖片在合成時便可自動設置標籤，因此極大的減小的人力投入，另外加強了整個模型的自動化實現能力。

(b)步驟——遷移學習

做者在基礎求解器訓練完成後，考慮到基礎求解器的訓練數據所有來自於合成圖片，容易對合成圖片的特徵過擬合，另外遷移學習對LeNet-5模型後部分進行訓練，能夠提升模型的實施效果
原文引用參考文獻指出： The idea of transfer learning is that in neural network classification, information learned at the early layers of neural networks (i.e.closer to the input layer) will be useful for multiple classification tasks. The later the network layers are, the more specialized the layers become.
文章的實驗部分也提供數據進一步證實，微調參數後，對模型的識別準確率有較大的提高。

到這裏文章的模型詳情就介紹完畢了，下面給一張圖示例做者的模式識別驗證碼的完整過程

圖2-7 一個完整的識別過程

3 精彩的實驗

以前也提到了，做者的實驗對象是Alexa評出的2018年最受歡迎的50個網站中的32個，而這32個網站中有些網站使用了相同的驗證碼方案（例如Youtube使用Google的安全驗證碼方案，Live、Office和Bing使用的是Microsoft的安全驗證碼方案），因此不須要重複實驗，而各類驗證碼方案又又不一樣的字符集，因此做者整理數據後分別作了實驗。先展現一下做者的模型在各類安全驗證碼上的識別準確率和耗時，如圖3-1。

圖3-1 各類驗證碼方案的識別準確率

可見微調後，模型的識別準確率有較大的提高，且用時極低，如前面所言0.05s之內完成識別工做。那麼咱們再來看看這些驗證碼方案大概是什麼樣子的，以及驗證碼求解器犯的錯誤（如圖3-2所示）。

圖3-2 驗證碼方式示例和識別錯誤示例

其實做者給出這張圖的意思是想說，他們設計的模型已經很是優秀了，這些識別錯誤的地方其實對人而言識別起來也是比較困難的。

3.1 與其餘模型的對比

做者主要從驗證碼識別準確率和驗證碼安全特徵去除效果兩個方面與前人的成果進行了對比

3.1.1 對比識別驗證碼的準確率

這裏與四個前人研究成果進行了對比，第一種是2011年發表在CCS，第二個是2016年發表在NDSS，第三個是2014年發表在USENIX WOOT，第四個是2017年發表在science，在下方表格中的順序依次爲左上、右上、左下、右下。

圖3-3 與其餘方法的對比

從圖中能夠看出做者的研究成果，相對於前人的方法有很是大的提高，在後面的實驗種，做者這套識別模型甚至與人的識別準確率不相上下。

3.1.2 對比其餘去除安全特徵的方法

其實去除驗證碼的安全特徵的想法並非做者獨創，但做者的預處理模型實現了更好的去除效果，而去掉安全特徵後，深度學習算法會更容易的識別出圖片種的文字，所以在最終的識別準確率上相對於其餘模型會有有較大提高。圖3-4和3-5展現了做者與其餘去除安全特徵模型的對比，圖3-6展現了預處理模型去除安全特徵和標準化字體的效果。

圖3-4 與安全特徵過濾模型的對比

(a)是百度驗證碼方案的真實圖片，(b)(c)(d)是不一樣設置下的安全特徵過濾方案輸出效果，(e)是預處理模型的輸出，這裏差距明顯。

圖3-5 與其餘安全特徵消除模型的對比

圖3-6 與其餘安全特徵去除模型的對比

圖3-5是預處理模型與文獻[16]的模型除去安全特徵的對比。圖3-6則是是單獨列出的一些預處理模型的處理效果，其中每個組對比圖的左邊是合成驗證碼圖片，右邊是預處理模型去除安全特徵後的驗證碼圖片。能夠明顯看出，做者的預處理模型不光可以準確地消除安全特徵，還能填充中空的文字，而且還有爲各個字符增長間隔的能力。

3.2 最佳參數探索實驗

這一小節主要介紹實驗思路，展現做者對本身的模型進行了哪些參數和閾值的思考。

在遷移學習中，從不一樣的驗證碼方案觀察改變真實圖片的數量和微調參數的層對最終識別準確率的影響，最終得出使用500張真實圖片進行參數的微調，且微調參數的層是第二個卷積層到最後效果最好，如圖3-7&3-8。
在兩個生成對抗網絡中，從不一樣的驗證碼方案觀察修改迭代終止閾值對驗證碼識別準確率的影響，最終肯定迭代的終止條件是當判別網絡的準確率低於5%時效果最好，如圖3-9。
不一樣的安全特徵對識別準確率的影響如何？如圖3-10。

做者對這三個問題分別進行了實驗，得出了相應的結果，500張圖片、從第二個卷積層到最後進行微調、閾值爲5%是最佳選擇。而安全特徵越多，驗證碼就越難以識別，但另外一方面，驗證碼的可用性也會下降。

圖3-7 遷移學習開始位置

圖3-8 真實驗證碼的數量影響

圖3-9 修改終止條件的閾值
(注意，圖3-9的橫座標是誤分類率，準確率=(1 - 誤分類率)，因此判別網絡的準確率爲5%時最佳)

圖3-10 不一樣安全特徵對準確率的

圖3-10可見，雖然驗證碼安全特徵變複雜能夠下降模式的識別準確率，但驗證碼的可用性明顯下降。

3.3 驗證碼可用性探究實驗

上一小節中，做者的實驗已經證實：安全特徵越複雜，模型的的識別準確率會下降，但另外一方面，驗證碼越複雜，它看起來彷佛越不可用。做者指出，驗證碼應該被設計成能讓人輕鬆識別但機器卻很是困難。因而做者作了以下實驗，探索可用性和安全性的平衡點，實驗設置每張圖人最多可用觀察30秒，機器則只識別一次，而人觀察後還須要對每張圖得可用性進行評分，分值區間爲1-5。

圖3-11 可用性與識別難度對比

從圖中可見，做者的識別模型在準確率上幾乎與人得識別準確率相差無幾，只有當安全特徵變得複雜時二者纔有必定差距，但此時驗證碼也變得對用戶不友好。