Tesseract_ocr 字符識別基礎及訓練字庫、合併字庫

時間 2019-12-13

標籤 tesseract ocr 字符識別基礎訓練字庫合併简体版

原文原文鏈接

字符訓練網上一搜一大堆，但做爲一個初學者而言，字符合併網上卻寫的很籠統python

首先，須要生成的字符集.tif文件，位置文件 .box ,只要有這兩個文件在，就能夠合併字典（這個說的頗有道理的樣子）

好了，我如今有三個須要合併的字典git

（1）.（why3.楷體.exp0.tif，why3.楷體.exp0.box）github

（2）.（why4.microsoftyaheiuilight.exp0.tif，why4.microsoftyaheiuilight.exp0.box）測試

（3）. (why5.隸書b.exp0.tif,why5.隸書b.exp0.box)字體

一、先生成相對應的 .tr 文件
//本身的命令根據本身的狀況進行修改ui

tesseract why3.楷體.exp0.tif why3.楷體.exp0 nobatch box.train
tesseract why4.microsoftyaheiuilight.exp0.tif why4.microsoftyaheiuilight.exp0 nobatch box.train
tesseract why5.隸書b.exp0.tif why5.隸書b.exp0 nobatch box.train

二、從全部文件中提取字符

//本身的命令根據本身的狀況進行修改google

unicharset_extractor why3.楷體.exp0.box why4.microsoftyaheiuilight.exp0.box why5.隸書b.exp0.box

三、生成字體特徵文件

新建的font.txt文件，在文件中把全部box文件對應的字體特徵都加進去（若是不知道，能夠去原來考出來的字庫文件找.font_properties文件查看）spa

楷體 0 0 0 0 0
microsoftyaheiuilight 0 0 0 0 0
隸書b 0 1 0 0 0

寫完以後，執行以下命令：.net

mftraining -F font.txt -U unicharset why3.楷體.exp0.tr why4.microsoftyaheiuilight.exp0.tr why5.隸書b.exp0.tr

4 、彙集全部.tr 文件

3d

cntraining why3.楷體.exp0.tr why4.microsoftyaheiuilight.exp0.tr why5.隸書b.exp0.tr

5 、重命名文件，我把unicharset, inttemp, normproto, pfftable，shapetable 這幾個文件加了前綴why. （本身定，隨意） //我加的是together.

六、合併全部文件生成一個大的字庫文件

combine_tessdata together.

目錄下生成的結果以下：

把合併字庫拷進以下目錄：

測試圖片以下：

執行以下代碼：

# coding=utf-8
__author__ = 'syq'

#https://github.com/tesseract-ocr
import sys
import importlib
#reload(sys)
importlib.reload(sys);
#sys.setdefaultencoding('utf-8')

import os;
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'
try:
    from pyocr import pyocr
    from PIL import Image
except ImportError:
    print('模塊導入錯誤,請使用pip安裝,pytesseract依賴如下庫：')
    print('http://www.lfd.uci.edu/~gohlke/pythonlibs/#pil')
    print('http://code.google.com/p/tesseract-ocr/')
    raise SystemExit
tools = pyocr.get_available_tools()[:]
if len(tools) == 0:
    print("No OCR tool found")
    sys.exit(1)
print("Using '%s'" % (tools[0].get_name()))
print(tools[0].image_to_string(Image.open('pic\\123.png'),lang='together'))