下載chi_sim.traindata字庫
下載tesseract-ocr-setup-3.02.02.exe
下載地址:http://code.google.com/p/tesseract-ocr/downloads/list
下載jTessBoxEditor用於修改box文件
下載地址:http://download.csdn.net/detail/a443475601/5896893 裏面自帶java運行庫,安裝後 而後啓動命令行 java -jar jTessBoxEditor.jar便可打開
爲了方便 tif文面命名格式[lang].[fontname].exp[num].tif
lang是語言 fontname是字體
好比咱們要訓練自定義字庫 image 字體名MyFont
那麼咱們把tif文件重命名 image.MyFont.exp0.tif
下面開始訓練字庫:
一、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_sim batch.nochop makebox
該步驟會生成一個image.MyFont.exp0.box文件
把tif文件和box文件放在同一目錄,用jTessBoxEditor.jar打開tif文件,而後根據實際狀況修改box文件
二、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatch box.train
該步驟生成一個image.MyFont.exp0.tr文件
三、unicharset_extractor image.MyFont.exp0.box
該步驟生成一個unicharset文件
四、新建一個font_properties文件
裏面內容寫入MyFont 0 0 0 0 0 表示默認普通字體
五、運行命令
shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr
mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr
cntraining image.MyFont.exp0.tr
六、把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個文件前面都加上image.
七、執行combine_tessdata image.
而後把image.traineddata放到tessdata目錄
八、用新的字庫對圖片進行分析
tesseract test.tif output -l imagejava
----------------------------------------------字體
轉自[google
]spa
----------------------------------------------.net
後記1:當在進行新語言訓練時,應在jTessBoxEditor中將每一個字符或字的邊框單獨修改,不能兩個字用一個邊框如你好,那樣將致使Tesseract識別不出來!命令行