Windows下安裝tesserocr

時間 2019-12-10

原文原文鏈接

很難受，因爲這兩天重裝了系統，又得從新配置環境了，而我在安裝tesserocr的時候踩了一些坑，因而想寫出來分享一下。python

一.安裝tesseract

要安裝tesserocr，首先要下載tesseract，它是給tesserocr提供支持的。下載地址爲：https://digi.bib.uni-mannheim.de/tesseract/。git

打開以後能夠看到有不少文件，帶dev的爲開發版本，不帶dev的爲穩定版本，咱們選擇下載不帶dev的版本，好比最新的這個：tesseract-ocr-w64-setup-v4.1.0.20190314.exe。下載完成以後運行安裝，一直點擊next，直到出現以下頁面：github

在Additional language data中包含了OCR支持識別的各國語言包，能夠根據狀況選擇，我這裏就選擇了中文的：windows

以後的過程就不用贅述了，這裏由於我只選擇了中文語言包，因此下載起來仍是很快的。ui

使用pip install tesserocr進行安裝。我在安裝的時候碰到了下面這個問題：spa

解決辦法：code

1）下載對應版本的whl包進行安裝，下載地址：https://github.com/simonflueckiger/tesserocr-windows_build/releases。blog

好比個人Python版本是3.7，電腦是Windows64位，因此我下載的是：tesserocr-2.4.0-cp37-cp37m-win_amd64.whl。下載完以後使用pip進行安裝：圖片

2）安裝Visual Studio，好比VS2017。這個怎麼說呢，雖然它裏面包含了不少包，安裝起來也很簡單，可是若是你想卸載就很蛋疼了，並且這個軟件會佔用C盤幾個G的空間，因此我我的是不推薦使用這個辦法的。ip

首先找到你tesseract安裝的目錄位置，好比E:\Tesseract-OCR，而後將該路徑添加到環境變量path中：

以後新建一個系統變量TESSDATA_PREFIX，對應的值爲：E:\Tesseract-OCR\tessdata：

下面是一個簡單的示例，使用的圖片爲：

代碼很簡單，以下：

1 import tesserocr
2 from PIL import Image
3 
4 
5 img = Image.open("test.jpg")
6 print(tesserocr.image_to_text(img))

在第一次運行的時候可能會出現下面這個錯誤：

RuntimeError: Failed to init API, possibly an invalid tessdata path: E:\Python\/tessdata/

解決辦法：將tesseract安裝目錄下的tessdata文件夾複製到你的Python安裝目錄下。

最終運行結果爲：@ python’

咱們能夠看到tesserocr在不處理圖片直接使用的狀況下，識別的效果實際上是比較差的，若是咱們想要提升OCR識別的準確度，能夠進行相應的識別訓練。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。