Tesseract圖形識別軟件的安裝

安裝

下載安裝: tesseractlinux

安裝 pytesseractPillowgit

pip install pytesseract

pip install Pillow

這裏只說 winsows 系統下的安裝,linux 基本不會有什麼問題。
在利用 pytesseract 調用 tesseract 時遇到如下錯誤:github

FileNotFoundError: [WinError 2] 系統找不到指定的文件。

因而我看了下pytesseract源碼,發現有這樣的一行windows

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY

tesseract_cmd = 'tesseract'

估計 windows 系統要手工添加環境變量,因此才產生的問題,因而又將 tesseract 添加到環境變量 Path 中,但仍是會報錯:測試

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\eng.traineddata')

這個是eng.traineddata文件路徑有誤纔會出現的錯誤。google

解決辦法:spa

先查看tesseract有沒有這個語言包,有CMD中輸入命令:code

tesseract --list-langs

結果:圖片

List of available languages (2):
eng
osd

而後再查看而後再google搜索一下問題,發現仍是 tesseract 的環境變量的問題,找到了下面這一句話ip

Please make sure the TESSDATA_PREFIX environment variableisset to the
parent directory of your"tessdata"directory.

因而新建的一個TESSDATA_PREFIX變量,指定tessdata的上級目錄也就是C:\Program Files (x86)\Tesseract-OCR

圖片描述

安裝完成。

先用一個簡單的驗證碼測試一下:

圖片描述

from PIL import Image
import pytesseract
result = pytesseract.image_to_string(Image.open(r'F:\PIN_ws\692.jpg',"r"), lang='eng') 
print(result)
相關文章
相關標籤/搜索