Python第三方模塊tesserocr安裝

介紹

在爬蟲過程當中,不免會遇到各類各樣的驗證碼,而大多數驗證碼仍是圖形驗證碼,這時候咱們能夠直接用 OCR 來識別。python

tesserocr 是 Python 的一個 OCR 識別庫 ,但實際上是對 tesseract 作的一 層 Python API 封裝,因此它的核心是 tesseract。 所以,在安裝 tesserocr 以前,咱們須要先安裝 tesseract 。git

例如:對於下圖的驗證碼,咱們能夠經過 OCR 技術將其轉換成電子文本,而後爬蟲將識別的結果提交給服務器,即可以達到自動識別驗證碼的過程。github

  

相關連接

tesserocr GitHub: https://github.com/sirfz/tesserocr服務器

tesserocr PyPI: https://pypi.python.org/pypi/tesserocride

tesseract 下載地址: http://digi.bib.uni-mannheim.de/tesseract測試

tesseract GitHub: https://github.com/tesseract-ocr/tesseractspa

tesseract 語言包: http://github.com/tesseract-ocr/tessdata3d

tesseract 文檔: https://github.com/tesseract-ocr/tesseract/wiki/Documentationcode

Windows下的安裝

在 Windows 下,首先須要下載 tesseract,它爲 tesserocr 提供了支持。blog

進入下載頁面,能夠看到有各類 .exe 文件的下載列表,這裏能夠選擇下載 3.0 版本 。 以下圖所示爲 3.05 版本 。

其中文件名中帶有 dev 的爲開發版本,不帶 dev 的爲穩定版本,能夠選擇下載不帶 dev 的版本, 例如能夠選擇下載 tesseract-ocr-setup-3 .05.01.exe。

下載完成後雙擊運行,安裝程序。須要注意的是,須要句選 Additional language data(download)選項來安裝 OCR 識別支持的語言包,這樣 OCR 即可以識別多國語言 。

給tesseract配置環境變量:

(1)將tesseract安裝路徑添加到path環境變量中

(2)將tesseract的語言包添加到環境變量中,在環境變量中新建一個系統變量,變量名稱爲TESSDATA_PREFIX,tessdata是放置語言包的文件夾,通常在你安裝tesseract的目錄下,即tesseract的安裝目錄就是tessdata的父目錄,把TESSDATA_PREFIX的值設置爲它便可

接下來 , 再安裝 tesserocr 便可:

pip install tesserocr pillow

若是經過 pip 安裝失敗,能夠嘗試 Anaconda 下的 conda 來安裝:

conda install -c simonflueckiger tesserocr pillow

驗證安裝

測試樣例:

圖片下載:http://images.cnblogs.com/cnblogs_com/Jimc/1316973/o_image.png

 (1)用 tesseract 命令測試:

tesseract image.png result -l eng 

 運行結果以下:

Tesseract Open Source OCR Engine v3.05.01 with Leptonica

(2)利用 Python 代碼測試:

import tesserocr
from PIL import Image

image = Image.open('image.png')
result = tesserocr.image_to_text(image)
print(result)

運行結果以下:

PythonWebSpider

另外,還能夠直接調用 tesserocr 模塊的 file_to_text() 方法,能夠達到一樣的效果:

import tesserocr

print(tesserocr.file_to_text('image.png'))

運行結果以下:

PythonWebSpider

若是成功輸出結果,則證實 tesseract 和 tesserocr 都已經安裝成功。

相關文章
相關標籤/搜索