Tesseract 在 windows 下的安裝及簡單應用

時間 2019-12-08

標籤 tesseract windows 安裝簡單應用欄目 Windows 简体版

原文原文鏈接

Tesseract 是一個開源的 OCR 引擎，能夠識別多種格式的圖像文件並將其轉換成文本，最初由 HP 公司開發，後來由 Google 維護。下載地址：https://digi.bib.uni-mannheim.de/tesseract/測試

其中文件名中帶有 dev 的爲開發版本，不帶 dev 的爲穩定版本。spa

安裝時能夠添加支持的語言包，以下界面最後一個選項點開選擇，咱們能夠選擇簡體中文 Chiness(Simplified)。3d

安裝完成後還須要將安裝路徑添加至環境變量。blog

打開 cmd，輸入命令 tesseract -v，看到輸出版本信息即表明安裝成功。圖片

識別命令：tesseract 圖片路徑結果文件名 -l 語言開發

一、將 cmd 切換到圖片所在路徑，則能夠只輸入圖片名，不然須要全路徑get

二、結果文件名不能夠加後綴，一定會自動加 .txt 後綴，若是結果文件名寫 a.txt，則最後輸出的文件名爲 a.txt.txt。cmd

三、-l 是英文字母L，不是數字1，language的意思。it

四、語言英文爲 eng，簡體中文爲 chi_sim變量

截了個谷歌的圖片來測試

輸入命令：tesseract 1.png a -l eng，結果以下，識別正確

咱們嘗試用簡體中文試試

識別就有誤了。

中文的識別能夠另外截圖試試，只是正確率並不高。

我 tesseract 是安裝在 C 盤的，在 C 盤運行命令識別沒問題，但在 D 盤打開 cmd 運行命令就報錯了：

Error opening data file ….

Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your 「tessdata」 directory.

Failed loading language ‘eng’

Teseract couldn’t load any languages!

Counld not initialize tesseract

意思就是要將 tessdata 的父文件夾路徑設置爲名爲 TESSDATA_PREFIX 的環境變量值。設置完成以後須要重啓電腦，不然依然報錯。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。