Python作簡單的驗證碼識別(ocr)

一、環境:python

系統:XPweb

Python版本:2.7.5測試

二、所需文件:google

wKioL1Lc21LBEt2GAABXOaBfAgs848.jpg

(1)、pillow地址:https://pypi.python.org/pypi/Pillow/spa

(2)、tesseract地址:https://code.google.com/p/tesseract-ocr/code

(3)、pytesser地址:https://code.google.com/p/pytesser/orm

三、安裝blog

(1)、pillow和tesseract直接雙擊安裝,沒什麼值得注意的。圖片

(2)、pytesser無需安裝,解壓到某個文件夾,讓後添加環境變量(PYTHONPATH)。好比walker的PYTHONPATH環境變量值是 C:\Python27\Lib\site-packages\pytesser_v0.0.1字符串

注意:將pytesser_v0.0.1目錄下pytesser.py第6行的import Image改成from PIL import Image

四、測試

wKiom1Lc4KmikVlFAABl75YI0G4983.jpg

其中圖片:

wKioL1Lc4M6iHsRoAAANN43JkXI931.jpg 3.jpg

wKiom1Lc4PHivm7uAAANEmofN3Q454.jpg 13.jpg

五、能夠看到,識別並非很精確。能夠將獲得的字符串轉爲大寫,取出可能的字符,好比上面的驗證碼可能的字符集爲 大寫字母和數字,將兩個字符串的大寫字母和數字取出來是能夠獲得正確驗證碼的。

相關文章
相關標籤/搜索