Windows下安裝tesserocr

很難受,因爲這兩天重裝了系統,又得從新配置環境了,而我在安裝tesserocr的時候踩了一些坑,因而想寫出來分享一下。python

 

一.安裝tesseract

要安裝tesserocr,首先要下載tesseract,它是給tesserocr提供支持的。下載地址爲:https://digi.bib.uni-mannheim.de/tesseract/git

打開以後能夠看到有不少文件,帶dev的爲開發版本,不帶dev的爲穩定版本,咱們選擇下載不帶dev的版本,好比最新的這個:tesseract-ocr-w64-setup-v4.1.0.20190314.exe。下載完成以後運行安裝,一直點擊next,直到出現以下頁面:github

在Additional language data中包含了OCR支持識別的各國語言包,能夠根據狀況選擇,我這裏就選擇了中文的:windows

以後的過程就不用贅述了,這裏由於我只選擇了中文語言包,因此下載起來仍是很快的。ui

 

二.安裝tesserocr

使用pip install tesserocr進行安裝。我在安裝的時候碰到了下面這個問題:spa

解決辦法code

1)下載對應版本的whl包進行安裝,下載地址:https://github.com/simonflueckiger/tesserocr-windows_build/releasesblog

好比個人Python版本是3.7,電腦是Windows64位,因此我下載的是:tesserocr-2.4.0-cp37-cp37m-win_amd64.whl。下載完以後使用pip進行安裝:圖片

 2)安裝Visual Studio,好比VS2017。這個怎麼說呢,雖然它裏面包含了不少包,安裝起來也很簡單,可是若是你想卸載就很蛋疼了,並且這個軟件會佔用C盤幾個G的空間,因此我我的是不推薦使用這個辦法的。ip

 

 三.配置環境變量

首先找到你tesseract安裝的目錄位置,好比E:\Tesseract-OCR,而後將該路徑添加到環境變量path中:

以後新建一個系統變量TESSDATA_PREFIX,對應的值爲:E:\Tesseract-OCR\tessdata:

 

四.運行示例

下面是一個簡單的示例,使用的圖片爲:

代碼很簡單,以下:

1 import tesserocr
2 from PIL import Image
3 
4 
5 img = Image.open("test.jpg")
6 print(tesserocr.image_to_text(img))

在第一次運行的時候可能會出現下面這個錯誤:

RuntimeError: Failed to init API, possibly an invalid tessdata path: E:\Python\/tessdata/

解決辦法:將tesseract安裝目錄下的tessdata文件夾複製到你的Python安裝目錄下。

最終運行結果爲:@ python’

咱們能夠看到tesserocr在不處理圖片直接使用的狀況下,識別的效果實際上是比較差的,若是咱們想要提升OCR識別的準確度,能夠進行相應的識別訓練。

相關文章
相關標籤/搜索