Tesseract-OCR 自動生成識別庫的批處理

用Tesseract-OCR作識別庫的時候,生成字典很是麻煩,就寫了一個批處理,用來生成字典仍是蠻方便的,但願你們有用,該批處理已經自動生成font_properties文件,各位無需手動建立java

下載地址:http://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.01-1.exegit

下面簡單說下怎麼訓練google

一、批量下載、並保存須要識別的圖片(驗證碼);spa

二、預處理圖片(降噪、剪裁、灰度);code

三、使用 jTessBoxEditor 生成 tif 文件(注:jTessBoxEditor是java軟件,須要安裝java jdk)orm

四、複製我這個批處理文件到生成的tif目錄下執行blog

五、輸入tif的完整文件名圖片

六、輸入字典項目名稱get

七、是否生成box文件,沒有生成的,選擇y,已經生成並修正過的就選擇nit

八、生成完畢

下面是批處理的內容,複製下面內容,保存一個.bat文件

echo off
cls
set /p img=請輸入圖片名:
set /p pro=請輸入項目名:

set /p level=是否生成box?
if %level% NEQ n goto step2
if %level% NEQ N goto step2

echo 1、生成%img%的box文件,項目名【%pro%】
pause
tesseract.exe %img% %pro% batch.nochop digits makebox
cls
echo 生成box文件完成,請使用jTessBoxEditor校訂識別信息。
pause

:step2
tesseract.exe %img% %pro% nobatch box.train
unicharset_extractor.exe %pro%.box

echo 生成font_properties文件
set val=%pro% 1 0 0 1 0 
echo %val%>font_properties

cntraining.exe %pro%.tr

mftraining.exe -F font_properties -U unicharset %pro%.tr

echo 重命名文件
rename inttemp %pro%.inttemp
rename unicharset %pro%.unicharset
rename normproto %pro%.normproto
rename pffmtable %pro%.pffmtable
rename shapetable %pro%.shapetable
echo 生成字典文件... combine_tessdata %pro%. echo 字典生成完畢,已生成字典:%pro%.traineddata

 注:3.0.2 增長了一個 shapetable  文件,在重命名時這個文件也須要重名命

相關文章
相關標籤/搜索