很難受,因爲這兩天重裝了系統,又得從新配置環境了,而我在安裝tesserocr的時候踩了一些坑,因而想寫出來分享一下。python
要安裝tesserocr,首先要下載tesseract,它是給tesserocr提供支持的。下載地址爲:https://digi.bib.uni-mannheim.de/tesseract/。git
打開以後能夠看到有不少文件,帶dev的爲開發版本,不帶dev的爲穩定版本,咱們選擇下載不帶dev的版本,好比最新的這個:tesseract-ocr-w64-setup-v4.1.0.20190314.exe。下載完成以後運行安裝,一直點擊next,直到出現以下頁面:github
在Additional language data中包含了OCR支持識別的各國語言包,能夠根據狀況選擇,我這裏就選擇了中文的:windows
以後的過程就不用贅述了,這裏由於我只選擇了中文語言包,因此下載起來仍是很快的。ui
使用pip install tesserocr進行安裝。我在安裝的時候碰到了下面這個問題:spa
解決辦法:code
1)下載對應版本的whl包進行安裝,下載地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases。blog
好比個人Python版本是3.7,電腦是Windows64位,因此我下載的是:tesserocr-2.4.0-cp37-cp37m-win_amd64.whl。下載完以後使用pip進行安裝:圖片
2)安裝Visual Studio,好比VS2017。這個怎麼說呢,雖然它裏面包含了不少包,安裝起來也很簡單,可是若是你想卸載就很蛋疼了,並且這個軟件會佔用C盤幾個G的空間,因此我我的是不推薦使用這個辦法的。ip
首先找到你tesseract安裝的目錄位置,好比E:\Tesseract-OCR,而後將該路徑添加到環境變量path中:
以後新建一個系統變量TESSDATA_PREFIX,對應的值爲:E:\Tesseract-OCR\tessdata:
下面是一個簡單的示例,使用的圖片爲:
代碼很簡單,以下:
1 import tesserocr 2 from PIL import Image 3 4 5 img = Image.open("test.jpg") 6 print(tesserocr.image_to_text(img))
在第一次運行的時候可能會出現下面這個錯誤:
RuntimeError: Failed to init API, possibly an invalid tessdata path: E:\Python\/tessdata/
解決辦法:將tesseract安裝目錄下的tessdata文件夾複製到你的Python安裝目錄下。
最終運行結果爲:@ python’
咱們能夠看到tesserocr在不處理圖片直接使用的狀況下,識別的效果實際上是比較差的,若是咱們想要提升OCR識別的準確度,能夠進行相應的識別訓練。