Windows環境安裝tesseract-ocr 4.00並配置環境變量

時間 2019-12-10

標籤 windows 環境安裝 tesseract ocr 4.00 配置變量欄目 Windows 简体版

原文原文鏈接

最近要作文字識別，不讓直接用別人的接口，因此只能嘗試去用開源的類庫。tesseract-ocr是惠普公司開源的一個文字識別項目，經過它能夠快速搭建圖文識別系統，幫助咱們開發出能識別圖片的ocr系統。由於Windows環境開發，我也就必須在windows環境安裝系統。java

第一步：下載安裝包git

根據https://github.com/tesseract-ocr/tesseract/wiki，我找到非官方的安裝包，好像我只看到64位的安裝包http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe，下載後直接安裝便可，可是要記得你的安裝目錄，咱們等會配置環境變量要用。github

若是不是作英文的圖文識別，還須要下載其餘語言的識別包https://github.com/tesseract-ocr/tesseract/wiki/Data-Files。npm

簡體字識別包：https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddatawindows

繁體字識別包：https://github.com/tesseract-ocr/tessdata/raw/4.0/chi_tra.traineddata安全

第二步：安裝ui

直接執行下載好的tesseract-ocr-setup-4.00.00dev.exe，下一步、下一步安裝。接口

第三步：配置環境變量圖片

注意：個人系統是win7，其餘系統應該差很少，跟配置java變量同樣開發

複製你的安裝地址，個人是安裝在C:\Program Files (x86)\Tesseract-OCR，界面以下：