Python3.6 利用Tesseract進行中英文圖像識別 之 PIL,pytesseract,tesseract-ocr安裝

背景環境:  win10  64位   python3.6.3python

須要安裝兩個包和一個引擎
在安裝以前須要先安裝好Python,pip並配置好環境變量
全部包的安裝都是經過pip來安裝的,須要在windows PowerShell中進行,而且是在 C:\Python27\Scripts目錄下
1.第一個包: pytesseract
pip install pytesseract
如果出現安裝錯誤的狀況,安裝不了的時候,能夠將命令改成 pip.exe install pytesseract來安裝
如果將pip修改成pip.exe安裝成功後,那麼下文的全部pip都須要改成pip.exe
2.第二個包:PIL安裝
pip install PIL
如果失敗了能夠以下修改 pip install PILLOWgit

 3.安裝識別引擎tesseract-ocr
https://github.com/tesseract-ocr/tesseract/wiki/Downloadsgithub

找到並下載安裝tesseract-ocr-setup-4.00.00dev.exe文件   windows

安裝時 額外語言,請勾選簡體中文網絡

網絡很差用的能夠去下面的link去下載中文訓練庫 chi_sim.traineddata app

https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddatablog

若是須要其餘語言包下載地址:download the appropriate training dataip

在系統變量中添加一個TESSDATA_PREFIX,變量值仍是安裝路徑,個人是C:\App\Tesseract-OCRget

安裝完成後須要配置環境變量,在系統變量path後增長 tesseract-ocr的安裝地址C:\App\Tesseract-OCR;it

將語言包copy到 安裝路徑中,個人是C:\App\Tesseract-OCR\tessdata\

查看Tesseract-OCR支持語言和 版本
tesseract --list-langs
tesseract -v

相關文章
相關標籤/搜索