tesseract num.font.exp0.tif num.font.exp0 batch.nochop makeboxhtml
【語法】:tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox 【語法】:lang爲語言名稱,fontname爲字體名稱,num爲序號;在tesseract中,必定要注意格式
在文件夾文件夾內,新建一個文本文件,名爲font_properties,刪掉.txt,用記事本打開,寫入內容爲:java
font 0 0 0 0 0oracle
【語法】:<fontname> <italic> <bold> <fixed> <serif> <fraktur> 【語法】:fontname爲字體名稱,italic爲斜體,bold爲黑體字, fixed爲默認字體,serif爲襯線字體,fraktur德文黑字體, 1和0表明有和無,精細區分時可以使用
echo Run Tesseract for Training.. tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train echo Compute the Character Set.. unicharset_extractor.exe num.font.exp0.box mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr echo Clustering.. cntraining.exe num.font.exp0.tr echo Rename Files.. rename normproto num.normproto rename inttemp num.inttemp rename pffmtable num.pffmtable rename shapetable num.shapetable echo Create Tessdata.. combine_tessdata.exe num. echo. & pause
tesseract num1.jpg num01 -l num工具
運行結果:
學習
咱們能夠看到新生成的文件 num01 的內容爲 762408,內容徹底正確。細心的人會發現,最後一句指令,咱們使用了指令[-l num]而不是[-l eng]。這說明,最後一次轉換咱們使用的是新生成的num語言的匹配庫而不是默認的 eng 語言匹配庫測試
本篇完善了不少細節,初學者也能夠看懂,奉上 原文連接,拜拜字體