OCR 圖像矯正

OCR(Optical Character Recognition,光學字符識別)是指電子設備檢查紙上字符而後用字符識別方法將形狀翻譯成計算機文字的過程;採用光學的方式將紙質文檔中的文字轉換成爲黑白點陣的圖像文件,並經過識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯加工的技術。
通常來講,OCR分爲分割和識別兩個部分。此文將探討分割問題。
一般咱們第一步是將用戶傳入的照片進行掃描,提取待識別的區域,也就如圖下面將文件摳出來。ui

原始照片矯正後圖像
具體步驟:
(1)獲取文件輪廓
(2)獲取文件四角的點座標
(3)透視變換spa

導入庫翻譯

import numpy as np
import cv2
import matplotlib.pyplot as plt
import math

獲取文件輪廓code

image = cv2.imread('原始照片.jpg')                                             #讀原始照片
gray = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)                                 #二值化
gray = cv2.GaussianBlur(gray, (5, 5), 0)                                      #高斯濾波
kernel = np.ones((3,3),np.uint8)  
dilation = cv2.dilate(gray,kernel)                                            #膨脹
edged = cv2.Canny(dilation, 30, 120)                                          #邊緣提取
_, cnts, hierarchy = cv2.findContours(edged,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_NONE)
cv2.drawContours(image,cnts,-1,(0,0,255),3)

效果圖

獲取文件四角點的座標orm

cnts0=cnts[0]
cnts1=cnts[1]

rect = np.zeros((4,2), dtype="float32")

rect[0] = cnts1[np.argmin(np.sum(cnts1,axis=-1))]
rect[2] = cnts0[np.argmax(np.sum(cnts0,axis=-1))]
rect[1] = cnts1[np.argmin(np.diff(cnts1,axis=-1))]
rect[3] = cnts0[np.argmax(np.diff(cnts0,axis=-1))]

四角點的順序:左上,右上,右下,左下
左上座標和最小,右下座標和最大
右上座標差最小,左下座標差最大(Y-X)文檔

rect

根據四角點座標求矯正後圖像的尺寸get

(tl,tr,br,bl) = rect
    
width1 = np.sqrt(((tr[0]-tl[0])**2)+((tr[1]-tl[1])**2))
width2 = np.sqrt(((br[0]-bl[0])**2)+((br[1]-bl[1])**2))
width = max(int(width1),int(width2))
    
height1 = np.sqrt(((tr[0]-br[0])**2)+((tr[1]-br[1])**2))
height2 = np.sqrt(((tl[0]-bl[0])**2)+((tl[1]-bl[1])**2))
height = max(int(height1),int(height2))
    
dst = np.array([
    [0, 0],
    [width - 1, 0],
    [width - 1, height - 1],
    [0, height - 1]], dtype = "float32")

dst

透視變換it

M = cv2.getPerspectiveTransform(rect, dst)
warped = cv2.warpPerspective(image, M, (width, height))

矯正後圖像

相關文章
相關標籤/搜索