轉眼就變成大四狗了,大學期間作的比較深刻的技術是爬蟲,可是爬蟲也有不少高級的技術沒有涉及,好比說驗證碼的破解即是其中之一,再加上我對其很是感興趣,因而乎,開始苦學圖像處理、學習機器學習,驗證碼破解也有了些眉頭。 python
如下是我破解的幾種驗證碼。c++
直接使用tesseract庫識別。git
使用K近鄰算法識別。github
使用卷積神經網絡訓練識別。算法
項目源碼:https://github.com/nladuo/cap... (能夠幫我點個star(^__^))
開發語言:python(編寫爬蟲),c++(編寫圖像處理部分以及機器學習算法)
開發環境:ubuntu 14.04
依賴庫:
Python:PIL、BeautifulSoup四、requests
C++:boost、opencv二、tesseract-ocrshell
sudo apt-get install build-essential cmake libgtk2.0-dev pkg-config python-dev python-numpy libavcodec-dev libavformat-dev libswscale-dev wget https://codeload.github.com/Itseez/opencv/zip/2.4.12 unzip opencv-2.4.12.zip cd opencv-2.4.12 ; mkdir release ; cd release cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local .. make -j8 sudo make install
sudo apt-get install tesseract-ocr tesseract-ocr-dev
sudo apt-get install libboost-all-dev
sudo apt-get install python-imaging
sudo apt-get install python-pip sudo pip install bs4 sudo pip install requests
git clone https://github.com/nladuo/captcha-break.git