用Tesseract-OCR作識別庫的時候,生成字典很是麻煩,就寫了一個批處理,用來生成字典仍是蠻方便的,但願你們有用,該批處理已經自動生成font_properties文件,各位無需手動建立java
下載地址:http://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.01-1.exegit
下面簡單說下怎麼訓練google
一、批量下載、並保存須要識別的圖片(驗證碼);spa
二、預處理圖片(降噪、剪裁、灰度);code
三、使用 jTessBoxEditor 生成 tif 文件(注:jTessBoxEditor是java軟件,須要安裝java jdk)orm
四、複製我這個批處理文件到生成的tif目錄下執行blog
五、輸入tif的完整文件名圖片
六、輸入字典項目名稱get
七、是否生成box文件,沒有生成的,選擇y,已經生成並修正過的就選擇nit
八、生成完畢
下面是批處理的內容,複製下面內容,保存一個.bat文件
echo off cls set /p img=請輸入圖片名: set /p pro=請輸入項目名: set /p level=是否生成box? if %level% NEQ n goto step2 if %level% NEQ N goto step2 echo 1、生成%img%的box文件,項目名【%pro%】 pause tesseract.exe %img% %pro% batch.nochop digits makebox cls echo 生成box文件完成,請使用jTessBoxEditor校訂識別信息。 pause :step2 tesseract.exe %img% %pro% nobatch box.train unicharset_extractor.exe %pro%.box echo 生成font_properties文件 set val=%pro% 1 0 0 1 0 echo %val%>font_properties cntraining.exe %pro%.tr mftraining.exe -F font_properties -U unicharset %pro%.tr echo 重命名文件 rename inttemp %pro%.inttemp rename unicharset %pro%.unicharset rename normproto %pro%.normproto rename pffmtable %pro%.pffmtable rename shapetable %pro%.shapetable
echo 生成字典文件... combine_tessdata %pro%. echo 字典生成完畢,已生成字典:%pro%.traineddata
注:3.0.2 增長了一個 shapetable 文件,在重命名時這個文件也須要重名命