一次完整的OCR實踐記錄

時間 2020-02-04

標籤一次完整 ocr 實踐記錄简体版

原文原文鏈接

1、任務介紹

　　此次的任務是對兩百餘張圖片裏面特定的編號進行識別，涉及保密的緣由，這裏就不能粘貼出具體的圖片了，下面粘貼出一張相似須要識別的圖片。python

　　假如說個人數據源如上圖所示，那麼我須要作的工做就是將上面圖片裏面標紅的數字給識別出來。git

　　我採用的算法是https://github.com/YCG09/chinese_ocr，這是基於Tensorflow和keras框架採用ctpn+densenet+CTC算法來完成對圖片指定內容的字符識別。github

2、圖像標註

　　既然要進行OCR識別，那麼必定要對已有的數據源進行圖像標註工做，這裏採用的工具是labelImg，相信你們若是有搞深度學習這塊的話必定對這個工具不會陌生。算法

　　對圖像具體的標註流程，我這裏就不作說明了，網上有不少資料能夠查找。這裏須要做特別說明的是，對於ctpn的訓練，label的名字爲text，對於densenet的訓練來講的話，就須要把標註框裏面的內容看成label。app

　　而後就是數據加強這塊，這裏須要記錄的有兩點，一就是原始的數據源比較少就必須作數據加強，否則作出來的效果確定不太行，二就是怎麼作數據加強，因爲這裏的數據比較簡單，須要識別的內容也是有規律可行的，那這裏就用不着採用比較複雜的數據加強，因此我作的數據加強就是對圖像隨機進行裁剪和傾斜，固然這裏裁剪的尺寸和傾斜的角度必定要控制好，否則就會影響圖片的質量。框架

import cv2
import numpy as np
import random
import os
from PIL import Image

# 數據加強的代碼

img_path = r"*****************"
save_path = r"****************"

# 隨機傾斜圖片
def rotate_ima(img_path,save_path):
    for file in os.listdir(img_path):
        img = cv2.imread(os.path.join(img_path,file),0)
        rows,cols = img.shape

        # cols-1 and rows-1 are the coordinate limits.
        # 每張圖片傾斜4張
        for i in range(4):
            a = random.randint(2,6)
            print(a)
            # 指定左右傾斜
            for j in range(2):
                a = -a
                M = cv2.getRotationMatrix2D(((cols-1)/2.0,(rows-1)/2.0),a,1)
                dst = cv2.warpAffine(img,M,(cols,rows))

                #cv2.imshow('img',img)
                #cv2.imshow('dst',dst)
                cv2.imwrite(os.path.join(save_path,'rot_'+str(i)+'_'+str(j)+file),dst)
                #cv2.waitKey(0)
                cv2.destroyAllWindows()
    
    
# 隨機裁剪圖片
def cut_img(img_path,save_path):
    all_file=[]
    for file in os.listdir(img_path):
        all_file.append(file)
    file1=random.sample(all_file,2)
    for x in file1:
        im=Image.open(os.path.join(img_path,x))
        crop_all=[]
        for c in range(5):  # 對每張圖片隨機生成5張
            for i in range(4):
                a=random.randint(100,400)
                crop_all.append(a)
            region=im.crop((crop_all[0],crop_all[1],im.size[0]-crop_all[2],im.size[1]-crop_all[3]))
            region.save(os.path.join(save_path,'cut_'+str(c)+'_'+x))
            
#rotate_ima(img_path,save_path)
cut_img(img_path,save_path)

　　而後我大概生成了3000張左右的圖片就開始進行數據標註了，標註了大概六七個小時才把這些數據標註給完成。dom

　　有了這些標註數據事後，就能夠正式開始訓練了。工具