驗證碼破解技術四部曲之環境搭建篇(一)

前言

轉眼就變成大四狗了,大學期間作的比較深刻的技術是爬蟲,可是爬蟲也有不少高級的技術沒有涉及,好比說驗證碼的破解即是其中之一,再加上我對其很是感興趣,因而乎,開始苦學圖像處理、學習機器學習,驗證碼破解也有了些眉頭。 python

如下是我破解的幾種驗證碼。c++

一、最容易破解的驗證碼

basic

直接使用tesseract庫識別。git

二、download.csdn的驗證碼

CSDN

使用K近鄰算法識別。github

三、weibo.cn驗證碼

weibo.cn

使用卷積神經網絡訓練識別。算法

說明

項目源碼:https://github.com/nladuo/cap... (能夠幫我點個star(^__^))
開發語言:python(編寫爬蟲),c++(編寫圖像處理部分以及機器學習算法)
開發環境:ubuntu 14.04
依賴庫:
Python:PIL、BeautifulSoup四、requests
C++:boost、opencv二、tesseract-ocrshell

環境搭建

安裝opencv 2.4.12

sudo apt-get install build-essential cmake libgtk2.0-dev pkg-config python-dev python-numpy libavcodec-dev libavformat-dev libswscale-dev 
wget https://codeload.github.com/Itseez/opencv/zip/2.4.12
unzip opencv-2.4.12.zip
cd opencv-2.4.12 ; mkdir release  ; cd release  
cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local ..  
make -j8
sudo make install

安裝tesseract-ocr

sudo apt-get install tesseract-ocr tesseract-ocr-dev

安裝boost

sudo apt-get install libboost-all-dev

安裝python的PIL庫

sudo apt-get install python-imaging

安裝python的BeautifulSoup四、requests庫

sudo apt-get install python-pip
sudo pip install bs4
sudo pip install requests

下載項目源碼

git clone https://github.com/nladuo/captcha-break.git
相關文章
相關標籤/搜索