Tesseract-OCR 自動生成識別庫的批處理

時間 2020-09-19

標籤 tesseract ocr 自動生成識別批處理简体版

原文原文鏈接

用Tesseract-OCR作識別庫的時候，生成字典很是麻煩，就寫了一個批處理，用來生成字典仍是蠻方便的，但願你們有用，該批處理已經自動生成font_properties文件，各位無需手動建立java

下載地址：http://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.01-1.exegit

下面簡單說下怎麼訓練google

一、批量下載、並保存須要識別的圖片（驗證碼）；spa

二、預處理圖片（降噪、剪裁、灰度）；code

三、使用 jTessBoxEditor 生成 tif 文件（注：jTessBoxEditor是java軟件，須要安裝java jdk）orm

四、複製我這個批處理文件到生成的tif目錄下執行blog

五、輸入tif的完整文件名圖片

六、輸入字典項目名稱get

七、是否生成box文件，沒有生成的，選擇y，已經生成並修正過的就選擇nit

八、生成完畢

下面是批處理的內容，複製下面內容，保存一個.bat文件

echo off
cls
set /p img=請輸入圖片名：
set /p pro=請輸入項目名：

set /p level=是否生成box？
if %level% NEQ n goto step2
if %level% NEQ N goto step2

echo 1、生成%img%的box文件，項目名【%pro%】
pause
tesseract.exe %img% %pro% batch.nochop digits makebox
cls
echo 生成box文件完成，請使用jTessBoxEditor校訂識別信息。
pause

:step2
tesseract.exe %img% %pro% nobatch box.train
unicharset_extractor.exe %pro%.box

echo 生成font_properties文件
set val=%pro% 1 0 0 1 0 
echo %val%>font_properties

cntraining.exe %pro%.tr

mftraining.exe -F font_properties -U unicharset %pro%.tr

echo 重命名文件
rename inttemp %pro%.inttemp
rename unicharset %pro%.unicharset
rename normproto %pro%.normproto
rename pffmtable %pro%.pffmtable
rename shapetable %pro%.shapetable

echo 生成字典文件...
combine_tessdata %pro%.

echo 字典生成完畢，已生成字典：%pro%.traineddata

注：3.0.2 增長了一個 shapetable 文件，在重命名時這個文件也須要重名命

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。