在Python爬蟲過程當中,不免遇到各類各樣的驗證碼問題,最簡單的就是git
下載地址:https://digi.bib.uni-mannheim.de/tesseract/ 能夠選擇下載不帶dev的穩定版本,我下載的是3.05.01版本的,不過這個版本的可能比較早了,識別能力不是很厲害,讀者能夠選擇下載最新版本的3.05.02,識別能力應該會好不少。github
下載完就是一路雙擊,在最後的Additional Language data(download)選上這個選項,是OCR支持各類語言的包,而後繼續安裝,直到安裝成功。windows
個人安裝路徑爲:G:\Program Files (x86)\Tesseract-OCRapp
安裝完成後就得須要配置環境變量,打開環境變量設置,在path中加入以下ui
spa
剛開始我直接在cmd下輸入 pip install tesserocr 很不幸報錯了,報錯相似於以下。。。由於以前個人報錯,沒有截圖。因此。。翻譯
就是相似於這種的截圖,這該怎麼辦,難道要去下載visual C++嗎?咱們有更好的解決方法,下載對應的.whl文件3d
下載地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases 必定要下載對應版本的code
個人是3.5.1,因此我下載的是這個版本的。讀者能夠自行選擇。blog
個人tesserocr-2.2.2-cp36-cp36m-win_amd64.whl文件下載在G盤根目錄下,而後在cmd裏輸入 pip install G:\tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 開始安裝whl文件,發現報錯了。提示不能安裝whl文件。。原來是沒有安裝wheel。
而後我就去安裝了wheel 直接 pip install wheel便可。
安裝成功 在輸入 pip install G:\tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 發現開始安裝了。
哎心累啊,總算弄好了。可是,我在pycharm中調用tesserocr 這個庫,他又提示報錯了,這是爲何呢?百度了一下最終解決。
原來須要在pycharm下的terrminal下輸入以下圖:
若是報錯了還得有一步操做。
將Tesseract-OCR下的tessdata文件複製到你的Python安裝路徑的scripts下:
這樣
這下應該就完全安裝成功了。。
這下在pycharm裏總算不會報錯了,咱們來試一下識別這兩張圖片的效果
代碼:
輸出結果以下:
以上就是我安裝tesserocr遇到的問題及解決辦法了。其實還能夠裝pytesseract這個庫。
安裝這個pytesseract庫可比tesserocr方便多了,根本不會報錯,直接pip install pytesseract 完事。。pycharm直接搜索庫
而後下載就完事,多省事。。。。
看一下識別效果,仍是一樣的兩張圖片。
代碼:
運行結果:
我打開知乎登陸界面,下載了一張驗證碼圖片:
代碼以下:
運行結果:
賊無語,可是灰度化和二值化後的圖片已經很清晰了。。