windows（win10）下tesserocr的安裝

時間 2019-11-19

標籤 windows win10 win tesserocr 安裝欄目 Windows 简体版

原文原文鏈接

windows下tesserocr的安裝

首先說明下個人開發環境是win10+Anconda，python環境是使用的Anconda自帶的python3.6版本html

安裝tesseract

在Windows下，首先須要下載tesseract，它爲tesserocr提供了支持。python

下載地址是 https://digi.bib.uni-mannheim.de/tesseract/ git

進入下載頁面，能夠看到有各類.exe文件的下載列表，其中文件名中帶有dev的爲開發版本，不帶dev的爲穩定版本，我本身選擇下載的是tesseract-ocr-setup-3.05.01.exe
下載完成後雙擊，此時會出現如下界面，此時能夠勾選Additional language data(download)選項來安裝OCR識別支持的語言包，這樣OCR即可以識別多國語言，語言較多，下載時間會比較長，請耐心等待，而後一路點擊Next按鈕便可。

配置相應的環境變量github

咱們須要配置兩個環境變量一個是path環境變量，一個新建環境變量 TESSDATA_PREFIXwindows

以下圖所示：ide

加入的值就是上面tesseract安裝後所在的目錄測試
設置完環境變量後，打開cmd窗口看可否識別tesseract，輸入命令tesseract -vui

安裝tesserocr

使用pip命令安裝.net

pip install tesserocr pillow命令行

安裝過程當中出現以下錯誤：

解決辦法是：
- 打開連接https://github.com/simonflueckiger/tesserocr-windows_build/releases
- 下載tesserocr-2.2.2-cp36-cp36m-win_amd64.whl文件，並將該文件放至 pip命令所在目錄，我是使用的anconda環境個人目錄路徑C:\ProgramData\Anaconda3\Scripts
- 而後在cmd命令行中切換到該目錄執行pip install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl，爲防止其餘問題產生，最好用管理員身份打開cmd窗口，以下圖所示即爲安裝成功
測試
1. 在cmd裏面執行python命令，而後看可否正常導入tesserocr
2. 下載須要識別的圖片，https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png
```
import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))
```
- 要把image.png 和代碼放在同一個目錄下，若是不是在同一個目錄下須要修改open中的路徑，須要注意的是若是是在pycharm中的話，要配置正確的python解析器，若是配置正確並且命令行中能正常導入的話，請重啓pycharm，待包所有加載完畢以後，再次進行測試
- 或者直接經過cmd命令行方式進行識別操做，須要注意的是img要在執行命令行時,所在的目錄，好比下圖所示個人圖片是放在c盤的，全部我要先切換到c盤而後執行如下命令
```
tesseract image.png result -l eng
```