[轉]Tesseract 3.02中文字庫訓練

時間 2019-11-18

標籤 tesseract 3.02 中文字庫訓練简体版

原文原文鏈接

下載chi_sim.traindata字庫
下載tesseract-ocr-setup-3.02.02.exe
下載地址：http://code.google.com/p/tesseract-ocr/downloads/list
下載jTessBoxEditor用於修改box文件
下載地址：http://download.csdn.net/detail/a443475601/5896893 裏面自帶java運行庫，安裝後而後啓動命令行 java -jar jTessBoxEditor.jar便可打開

爲了方便 tif文面命名格式[lang].[fontname].exp[num].tif
lang是語言 fontname是字體
好比咱們要訓練自定義字庫 image 字體名MyFont
那麼咱們把tif文件重命名 image.MyFont.exp0.tif

下面開始訓練字庫：
一、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_sim batch.nochop makebox
該步驟會生成一個image.MyFont.exp0.box文件
把tif文件和box文件放在同一目錄，用jTessBoxEditor.jar打開tif文件，而後根據實際狀況修改box文件
二、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatch box.train
該步驟生成一個image.MyFont.exp0.tr文件
三、unicharset_extractor image.MyFont.exp0.box
該步驟生成一個unicharset文件
四、新建一個font_properties文件
裏面內容寫入MyFont 0 0 0 0 0 表示默認普通字體
五、運行命令
shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr
mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr
cntraining image.MyFont.exp0.tr
六、把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個文件前面都加上image.
七、執行combine_tessdata image.
而後把image.traineddata放到tessdata目錄
八、用新的字庫對圖片進行分析
tesseract test.tif output -l imagejava