文字檢測是文字識別過程當中的一個很是重要的環節,文字檢測的主要目標是將圖片中的文字區域位置檢測出來,以便於進行後面的文字識別,只有找到了文本所在區域,才能對其內容進行識別。python
文字檢測的場景主要分爲兩種,一種是簡單場景,另外一種是複雜場景。其中,簡單場景的文字檢測較爲簡單,例如像書本掃描、屏幕截圖、或者清晰度高、規整的照片等;而複雜場景,主要是指天然場景,狀況比較複雜,例如像街邊的廣告牌、產品包裝盒、設備上的說明、商標等等,存在着背景複雜、光線忽明忽暗、角度傾斜、扭曲變形、清晰度不足等各類狀況,文字檢測的難度更大。以下圖:git
本文將介紹簡單場景、複雜場景中經常使用的文字檢測方法,包括形態學操做、MSER+NMS、CTPN、SegLink、EAST等方法,並主要以ICDAR場景文字圖片數據集介紹如何使用這些方法,以下圖:github
一、簡單場景:形態學操做法web
經過利用計算機視覺中的圖像形態學操做,包括膨脹、腐蝕基本操做,便可實現簡單場景的文字檢測,例如檢測屏幕截圖中的文字區域位置,以下圖:算法
其中,「膨脹」就是對圖像中的高亮部分進行擴張,讓白色區域變多;「腐蝕」就是圖像中的高亮部分被蠶食,讓黑色區域變多。經過膨脹、腐蝕的一系列操做,可將文字區域的輪廓突出,並消除掉一些邊框線條,再經過查找輪廓的方法計算出文字區域的位置出來。主要的步驟以下:數組
經過OpenCV,便能輕鬆實現以上過程,核心代碼以下:瀏覽器
# -*- coding: utf-8 -*- import cv2 import numpy as np # 讀取圖片 imagePath = '/data/download/test1.jpg' img = cv2.imread(imagePath) # 轉化成灰度圖 gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 利用Sobel邊緣檢測生成二值圖 sobel = cv2.Sobel(gray, cv2.CV_8U, 1, 0, ksize=3) # 二值化 ret, binary = cv2.threshold(sobel, 0, 255, cv2.THRESH_OTSU + cv2.THRESH_BINARY) # 膨脹、腐蝕 element1 = cv2.getStructuringElement(cv2.MORPH_RECT, (30, 9)) element2 = cv2.getStructuringElement(cv2.MORPH_RECT, (24, 6)) # 膨脹一次,讓輪廓突出 dilation = cv2.dilate(binary, element2, iterations=1) # 腐蝕一次,去掉細節 erosion = cv2.erode(dilation, element1, iterations=1) # 再次膨脹,讓輪廓明顯一些 dilation2 = cv2.dilate(erosion, element2, iterations=2) # 查找輪廓和篩選文字區域 region = [] contours, hierarchy = cv2.findContours(dilation2, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE) for i in range(len(contours)): cnt = contours[i] # 計算輪廓面積,並篩選掉面積小的 area = cv2.contourArea(cnt) if (area < 1000): continue # 找到最小的矩形 rect = cv2.minAreaRect(cnt) print ("rect is: ") print (rect) # box是四個點的座標 box = cv2.boxPoints(rect) box = np.int0(box) # 計算高和寬 height = abs(box[0][1] - box[2][1]) width = abs(box[0][0] - box[2][0]) # 根據文字特徵,篩選那些太細的矩形,留下扁的 if (height > width * 1.3): continue region.append(box) # 繪製輪廓 for box in region: cv2.drawContours(img, [box], 0, (0, 255, 0), 2) cv2.imshow('img', img) cv2.waitKey(0) cv2.destroyAllWindows()
該圖像處理過程以下圖所示:bash
能夠看到最終成功將圖像中的文字區域檢測出來了。微信
這種方法的特色是計算簡單、處理起來很是快,但在文字檢測中的應用場景很是有限,例如若是圖片是拍照的,光線有明有暗或者角度有傾斜、紙張變形等,則該方法須要不斷從新調整才能檢測,並且效果也不會很好,以下圖。例如上面介紹的代碼是針對白底黑字的檢測,若是是深色底白色字則須要從新調整代碼,若是有須要,可再私信我交流。網絡
二、簡單場景:MSER+NMS檢測法
MSER(Maximally Stable Extremal Regions,最大穩定極值區域)是一個較爲流行的文字檢測傳統方法(相對於基於深度學習的AI文字檢測而言),在傳統OCR中應用較廣,在某些場景下,又快又準。
MSER算法是在2002提出來的,主要是基於分水嶺的思想進行檢測。分水嶺算法思想來源於地形學,將圖像看成天然地貌,圖像中每個像素的灰度值表示該點的海拔高度,每個局部極小值及區域稱爲集水盆地,兩個集水盆地之間的邊界則爲分水嶺,以下圖:
MSER的處理過程是這樣的,對一幅灰度圖像取不一樣的閾值進行二值化處理,閾值從0至255遞增,這個遞增的過程就比如是一片土地上的水面不斷上升,隨着水位的不斷上升,一些較低的區域就會逐漸被淹沒,從天空鳥瞰,大地變爲陸地、水域兩部分,而且水域部分在不斷擴大。在這個「漫水」的過程當中,圖像中的某些連通區域變化很小,甚至沒有變化,則該區域就被稱爲最大穩定極值區域。在一幅有文字的圖像上,文字區域因爲顏色(灰度值)是一致的,所以在水平面(閾值)持續增加的過程當中,一開始不會被「淹沒」,直到閾值增長到文字自己的灰度值時纔會被「淹沒」。該算法能夠用來粗略地定位出圖像中的文字區域位置。
聽起來這個處理過程彷佛很是複雜,好在OpenCV中已內置了MSER的算法,能夠直接調用,大大簡化了處理過程。
檢測效果以下圖:
檢測後的結果是存在各類不規則的檢測框形狀,經過對這些框的座標做從新處理,變成一個個的矩形框。以下圖:
核心代碼以下:
# 讀取圖片 imagePath = '/data/download/test2.jpg' img = cv2.imread(imagePath) # 灰度化 gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) vis = img.copy() orig = img.copy() # 調用 MSER 算法 mser = cv2.MSER_create() regions, _ = mser.detectRegions(gray) # 獲取文本區域 hulls = [cv2.convexHull(p.reshape(-1, 1, 2)) for p in regions] # 繪製文本區域 cv2.polylines(img, hulls, 1, (0, 255, 0)) cv2.imshow('img', img) # 將不規則檢測框處理成矩形框 keep = [] for c in hulls: x, y, w, h = cv2.boundingRect(c) keep.append([x, y, x + w, y + h]) cv2.rectangle(vis, (x, y), (x + w, y + h), (255, 255, 0), 1) cv2.imshow("hulls", vis)
從上圖能夠看出,檢測框有不少是重疊的,大框裏面有小框,框與框之間有交叉,有些框只是圈出了漢字的偏旁或者某些筆劃,而咱們指望是能圈出文字的外邊框,這樣便於後續的文字識別。爲了處理這些不少重疊的大小框,通常會採用NMS方法(Non Maximum Suppression,非極大值抑制),也就是抑制非極大值的元素,即抑制不是最大尺寸的框,至關於去除大框中包含的小框,達到去除重複區域,找到最佳檢測位置的目的。
NMS算法的主要流程以下:
通過以上步驟,最後剩下的就是不包含重疊部分的文本檢測框了。核心代碼以下:
# NMS 方法(Non Maximum Suppression,非極大值抑制) def nms(boxes, overlapThresh): if len(boxes) == 0: return [] if boxes.dtype.kind == "i": boxes = boxes.astype("float") pick = [] # 取四個座標數組 x1 = boxes[:, 0] y1 = boxes[:, 1] x2 = boxes[:, 2] y2 = boxes[:, 3] # 計算面積數組 area = (x2 - x1 + 1) * (y2 - y1 + 1) # 按得分排序(如沒有置信度得分,可按座標從小到大排序,如右下角座標) idxs = np.argsort(y2) # 開始遍歷,並刪除重複的框 while len(idxs) > 0: # 將最右下方的框放入pick數組 last = len(idxs) - 1 i = idxs[last] pick.append(i) # 找剩下的其他框中最大座標和最小座標 xx1 = np.maximum(x1[i], x1[idxs[:last]]) yy1 = np.maximum(y1[i], y1[idxs[:last]]) xx2 = np.minimum(x2[i], x2[idxs[:last]]) yy2 = np.minimum(y2[i], y2[idxs[:last]]) # 計算重疊面積佔對應框的比例,即 IoU w = np.maximum(0, xx2 - xx1 + 1) h = np.maximum(0, yy2 - yy1 + 1) overlap = (w * h) / area[idxs[:last]] # 若是 IoU 大於指定閾值,則刪除 idxs = np.delete(idxs, np.concatenate(([last], np.where(overlap > overlapThresh)[0]))) return boxes[pick].astype("int")
經NMS處理後的檢測結果以下圖:
從上圖能夠看出,經MSER+NMS後,已能較好地將文字區域檢測、圈出來。
MSER+NMS檢測方法在傳統的OCR應用中使用普遍,檢測速度也很是快,能知足必定的文字識別場景。但當在複雜的天然場景中,特別是有複雜背景的,其檢測效果也不盡人意,會將一些無關的因素也檢測出來,以下圖:
【重點來了】
接下來要介紹的方法,就主要是基於深度學習的AI文字檢測法,可應用於複雜的天然場景中。
三、複雜場景:CTPN檢測法
CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network,基於鏈接預選框網絡的文本檢測)是基於卷積神經網絡和循環神經網絡的文本檢測方法,其基本作法是生成一系列適當尺寸的文本proposals(預選框)進行文本行的檢測,示意圖以下,具體的技術原理請見以前的文章(文章:大話文本檢測經典模型:CTPN)
CTPN檢測法能適應較爲複雜的天然場景,是目前深度學習中做文字檢測的經常使用方法之一。CTPN的原做者提供該算法的源代碼(https://github.com/tianzhi0549/CTPN),是基於caffe深度學習框架的。你們對tensorflow可能會更加熟悉,因而有人在github上提供了tensorflow版本的CTPN程序(https://github.com/eragonruan/text-detection-ctpn),下面介紹如何使用該程序進行文字檢測。
(1)下載源代碼和模型
① 首先,將tensorflow版本的CTPN程序源代碼下載下來,可直接下載成zip壓縮包或者git克隆
git clone https://github.com/eragonruan/text-detection-ctpn.git
② 接下來,進行編譯安裝,執行如下命令
cd utils/bbox chmod +x make.sh ./make.sh
③ 下載預訓練好的模型,下載地址爲 https://pan.baidu.com/s/1BNHt_9fiqRPGmEXPaxaFXw ,下載後的壓縮文件爲checkpoints_mlt.zip,新建目錄text-detection-ctpn,將解壓後將 checkpoints_mlt 文件夾放到text-detection-ctpn 目錄中
(2)CTPN文本檢測能力測試
將圖片放到data/demo目錄(默認有自帶測試圖片,如要檢測本身的圖片,則將本身的圖片放於data/demo目錄下),而後執行如下命令,就能使用CTPN進行文字檢測
python ./main/demo.py
檢測後的結果存放於 data/res 目錄中,檢測結果由圖片和檢測框位置、置信度分數信息兩種文件組成,以下圖所示:
打開文件後,以下圖所示,可見已較好地將文字檢測出來:
再打開其它圖片,可看到檢測結果以下,檢測效果還不錯,以下圖:
(3)CTPN文本檢測能力封裝
經過對main/demo.py的程序稍微進行改造,就能將CTPN檢測能力封裝後提供給其它程序調用了,核心代碼以下:
# 基於 CTPN 的文字檢測方法 # 輸入:圖片 # 返回:文本框位置和置信度分數 def text_detect(image): with tf.get_default_graph().as_default(): # 模型參數定義 input_image = tf.placeholder(tf.float32, shape=[None, None, None, 3], name='input_image') input_im_info = tf.placeholder(tf.float32, shape=[None, 3], name='input_im_info') global_step = tf.get_variable('global_step', [], initializer=tf.constant_initializer(0), trainable=False) bbox_pred, cls_pred, cls_prob = model.model(input_image) variable_averages = tf.train.ExponentialMovingAverage(0.997, global_step) saver = tf.train.Saver(variable_averages.variables_to_restore()) with tf.Session(config=tf.ConfigProto(allow_soft_placement=True)) as sess: # 加載模型 ckpt_state = tf.train.get_checkpoint_state(checkpoint_dir) model_path = os.path.join(checkpoint_dir, os.path.basename(ckpt_state.model_checkpoint_path)) saver.restore(sess, model_path) # 預測文本框位置 img = image h, w, c = img.shape im_info = np.array([h, w, c]).reshape([1, 3]) bbox_pred_val, cls_prob_val = sess.run([bbox_pred, cls_prob], feed_dict={input_image: [img], input_im_info: im_info}) textsegs, _ = proposal_layer(cls_prob_val, bbox_pred_val, im_info) scores = textsegs[:, 0] textsegs = textsegs[:, 1:5] textdetector = TextDetector(DETECT_MODE='H') boxes = textdetector.detect(textsegs, scores[:, np.newaxis], img.shape[:2]) boxes = np.array(boxes, dtype=np.int) return boxes,scores
從以上的檢測結果來看,CTPN檢測法在複雜的天然場景下具備較好的檢測效果。
四、複雜場景:SegLink檢測法
雖然CTPN在天然場景下的文字檢測效果還不錯,但CTPN的檢測效果是基於水平方向的,對於非水平的文本檢測效果並很差。在天然場景中,有不少的文本信息都是帶有必定的旋轉、傾斜角度的,例如街道上的廣告牌。接下來介紹的SegLink檢測法可以實現對旋轉文本的多角度檢測,該模型主要是對經過Segment(切片)、Link(連接)實現對文本的檢測,示意圖以下,具體的技術原理請見以前的文章(文章:大話文本檢測經典模型:SegLink)
下面介紹如何使用SegLink來檢測文本。
(1)下載源代碼和模型
① 首先,在github上下載tensorflow版本的SegLink源代碼(https://github.com/dengdan/seglink),可直接下載成zip壓縮包或者git克隆
git clone https://github.com/dengdan/seglink.git
② 下載pylib,下載路徑爲https://github.com/dengdan/pylib/tree/f7f5c5503fbb3d9593e6ac3bbf0b8508f53ee1cf ,解壓後將src裏面的util文件放到pylib目錄下面,而後添加到環境變量,在test_seglink.py的前面加上
import sys sys.path.append('/data/PycharmProjects/tensorflow/ocr/seglink/util')
或者在當前窗口執行如下命令,或在 /etc/profile,~/.bashrc 文件中添加如下命令
export PYTHONPATH=xx:$PYTHONPATH
③ 下載預訓練好的模型(基於SynthText、IC15數據集),做者提供了兩個預訓練好的模型seglink-384(基於384x384的圖片)、seglink-512(基於512x512的圖片),下載地址爲 https://pan.baidu.com/s/1slqaYux
④ 安裝依賴包
conda install -c cachemeorg setproctitle #或如下命令 #pip install setproctitle
⑤ 若是python是使用了python3的,則須要進行如下修改(使用python 2.x的,請忽略)
⑥ 修改./tf_extended/seglink.py,第808行,opencv3沒有cv.BoxPoints() 函數,修改以下:
# points = cv2.cv.BoxPoints(bbox) #opencv2.4.9 points = cv2.boxPoints(bbox) #opencv3.1.0
(2)SegLink檢測文本測試(文本框座標)
經過運行如下命令進行測試
./scripts/test.sh 0 GPU_ID CKPT_PATH DATASET_DIR
該命令由三個參數組成,第1個表示GPU,第2個表示模型路徑,第3個表示數據目錄。例如咱們使用剛纔下載的seglink-384預訓練模型,將要檢測的圖片放到指定的目錄後進行測試(可以使用本身的圖片,或使用場景文字圖片數據集ICDAR2015進行測試,下載地址爲http://rrc.cvc.uab.es/?ch=4&com=downloads),那麼執行的腳本以下:
./scripts/test.sh 0 ./models/seglink-512/model.ckpt-217867 ./dataset/ICDAR2015 /ch4_test_images
檢測後,生成了圖片檢測出來的文本框位置(8個座標點),並存放在txt文件中,以下圖:
從這些檢測的文本框位置結果來看,並不顯性化,不知道在圖片中的實際檢測效果如何。
(3)SegLink檢測文本測試(結果顯性化)
爲了能顯性化地展示出文本檢測 的圖片結果,可經過如下命令進行展現,格式爲
python visualize_detection_result.py \ --image=檢測的圖片所在目錄 --det=通過test_seglink.py檢測輸出的文本框位置座標 --output=指定將文本框位置繪製到圖片上的輸出目錄
該命令由三個參數組成,第一個表示輸入的圖像,第二個表示輸出檢測結果的文本信息,第三個表示輸出檢測結果的圖像
① 在visualize_detection_result.py添加環境變量
import sys sys.path.append('/data/PycharmProjects/tensorflow/ocr/seglink/util')
② 若是python是使用了python3的,則對visualize_detection_result.py第65行,print後面加上括號
對剛纔輸出的檢測結果信息進行可視化展現,調用的命令以下(以ICDAR2015測試圖片集爲例,如要使用本身的照片,請替換圖片目錄):
python visualize_detection_result.py \ --image=./dataset/ICDAR2015/ ch4_test_images/ \ --det=./models/seglink-512/model.ckpt-217867/test/icdar2015_test/model.ckpt-217867/seg_link_conf_th_0.800000_0.500000/txt \ --output=./dataset/output
執行後,可看到直接輸出了檢測後的結果圖片,以下圖:
打開其它圖片,檢測效果以下:
從上面的檢測結果來看,可較好地檢測出天然場景中的文字,特別是其中還有一些帶有必定傾斜或旋轉角度的文字,也能檢測出來。
(4)SegLink文本檢測能力封裝
爲了方便在其它程序中調用SegLink的檢測能力,在test_seglink.py, visualize_detection_result.py代碼的基礎上進行封裝改造,就能將SegLink的檢測能力進行封裝提供給其它程序調用,核心代碼以下:
# 基於 SegLink 的文字檢測方法 # 輸入:圖片 # 返回:文本框位置 def text_detect(img): with tf.name_scope('eval'): with tf.variable_scope(tf.get_variable_scope(),reuse=True): # 模型參數 image = tf.placeholder(dtype=tf.int32, shape=[None, None, 3]) image_shape = tf.placeholder(dtype=tf.int32, shape=[3, ]) # 預處理圖片 processed_image, _, _, _, _ = ssd_vgg_preprocessing.preprocess_image(image, None, None, None, None, out_shape=config.image_shape, data_format=config.data_format, is_training=False) b_image = tf.expand_dims(processed_image, axis=0) b_shape = tf.expand_dims(image_shape, axis=0) # 預測文本框 net = seglink_symbol.SegLinkNet(inputs=b_image, data_format=config.data_format) bboxes_pred = seglink.tf_seglink_to_bbox(net.seg_scores, net.link_scores, net.seg_offsets, image_shape=b_shape, seg_conf_threshold=config.seg_conf_threshold, link_conf_threshold=config.link_conf_threshold) sess_config = tf.ConfigProto(log_device_placement=False, allow_soft_placement=True) sess_config.gpu_options.allow_growth = True saver = tf.train.Saver() if util.io.is_dir(checkpoint_dir): checkpoint = util.tf.get_latest_ckpt(checkpoint_dir) else: checkpoint = checkpoint_dir with tf.Session(config=sess_config) as sess: # 加載模型 saver.restore(sess, checkpoint) # 預測文本框 image_data = img image_bboxes = sess.run([bboxes_pred], feed_dict={image: image_data, image_shape: image_data.shape}) bboxes = image_bboxes[0] return bboxes
五、複雜場景:EAST檢測法
CTPN檢測法、SegLink檢測法是經過先預測proposals(預選框)、segment(切片),而後再回歸、合併等方式實現對文本的檢測,中間過程比較冗長。而接下來介紹的EAST檢測法,則將中間過程縮減爲只有FCN(全卷積網絡)、NMS(非極大值抑制)兩個階段,並且輸出結果支持文本行、單詞的多個角度檢測,既高效準確,又能適應多種天然應用場景,以下圖所示,具體的技術原理請見以前的文章(文章:大話文本檢測經典模型:EAST)
下面介紹如何使用EAST來檢測文本。
(1)下載源代碼和模型
① 首先在github上下載EAST的源代碼(https://github.com/argman/EAST),可直接下載成zip壓縮包或者git克隆
git clone https://github.com/argman/EAST.git
② 在百度網盤上下載預先訓練好的模型文件(基於ICDAR 201三、ICDAR 2015數據集訓練),下載地址爲http://pan.baidu.com/s/1jHWDrYQ
③ 安裝shapely依賴包,執行如下命令
conda install shapely # 或執行如下命令 # pip install shapely
(2)EAST檢測文本測試(demo頁面)
進入EAST-master目錄,而後執行如下命令,可啓動demo頁面
python run_demo_server.py –checkpoint_path model/east_icdar2015_resnet_v1_50_rbox/
頁面默認會加載輸出的結果圖片,首次加載時沒有結果輸出,因此會提示404,這不影響後面的使用。
執行命令後,便可啓動web服務,在瀏覽器中輸入http://localhost:8769,打開demo頁面,以下圖:
點擊「選擇文件」選擇待檢測的圖片,點擊「Submit」提交進行檢測,檢測後將在頁面上返回顯示檢測後的圖片,隨機挑選了其中三張圖片,檢測效果以下圖:
做者還很貼心地提供在在線的demo頁面,讓用戶可直接進行體驗使用,使用方式跟上面的demo頁面同樣,網站連接爲http://east.zxytim.com/
(3)EAST檢測文本測試(批量檢測)
可經過命令行調用一批圖片批量檢測文本,仍是以剛纔的ICDAR圖片數據集進行檢測(若是要檢測本身的圖片,請替換數據目錄),命令以下:
python eval.py –test_data_path=/data/work/tensorflow/model/seglink/ICDAR2015/ch4_test_images/ --checkpoint_path=model/east_icdar2015_resnet_v1_50_rbox/ --output_dir=/tmp/east
執行該命令後,將會批量讀取圖片進行檢測,並輸出檢測結果,包括圖片中檢測到的文本框位置、檢測結果框住文本後的圖片,以下圖所示:
從上圖也能夠看出,EAST也能較好地檢測出天然場景的文字,對其中一些帶有旋轉角度的文字也可準確地檢測出來。
(4)EAST文本檢測能力封裝
爲了方便將EAST提供給其它代碼調用,經過對eval.py進行修改,封裝EAST文本檢測的方法,可直接供其它代碼調用,代碼以下:
# 基於 EAST 的文字檢測方法 # 輸入:圖片 # 返回:文本框位置相關信息 def text_detect(img): # 模型路徑 checkpoint_path='/data/PycharmProjects/tensorflow/ocr/east/model/east_icdar2015_resnet_v1_50_rbox/' # 模型參數 input_images = tf.placeholder(tf.float32, shape=[None, None, None, 3], name='input_images') global_step = tf.get_variable('global_step', [], initializer=tf.constant_initializer(0), trainable=False) f_score, f_geometry = model.model(input_images, is_training=False) variable_averages = tf.train.ExponentialMovingAverage(0.997, global_step) saver = tf.train.Saver(variable_averages.variables_to_restore()) sess = tf.Session(config=tf.ConfigProto(allow_soft_placement=True)) # 加載模型 ckpt_state = tf.train.get_checkpoint_state(checkpoint_path) model_path = os.path.join(checkpoint_path, os.path.basename(ckpt_state.model_checkpoint_path)) saver.restore(sess, model_path) # 預測文本框 im_resized, (ratio_h, ratio_w) = resize_image(img) score, geometry = sess.run( [f_score, f_geometry], feed_dict={input_images: [im_resized[:,:,::-1]]}) boxes,_ = detect(score_map=score, geo_map=geometry, timer=collections.OrderedDict([('net', 0),('restore', 0),('nms', 0)])) if boxes is not None: scores = boxes[:,8].reshape(-1) boxes = boxes[:, :8].reshape((-1, 4, 2)) boxes[:, :, 0] /= ratio_w boxes[:, :, 1] /= ratio_h text_lines = [] if boxes is not None: text_lines = [] for box, score in zip(boxes, scores): box = sort_poly(box.astype(np.int32)) if np.linalg.norm(box[0] - box[1]) < 5 or np.linalg.norm(box[3]-box[0]) < 5: continue tl = collections.OrderedDict(zip( ['x0', 'y0', 'x1', 'y1', 'x2', 'y2', 'x3', 'y3'], map(float, box.flatten()))) tl['score'] = float(score) text_lines.append(tl) ret = { 'text_lines': text_lines, } return ret
爲方便介紹,以上CTPN、SegLink、EAST的文本檢測能力封裝時,將加載模型、文本框預測、圖片繪製文本框等代碼寫在一塊兒,而在實際生產使用中,通常是將其分開,在後臺啓動OCR服務能力時預先加載模型,而後提供核心的文本檢測、識別能力,而輸出結果是否將文本框繪製到圖片上,則視具體需求場景而定。在生產環境中,如何更加有效地封裝AI能力,可再私信進行交流。
歡迎關注本人的微信公衆號「大數據與人工智能Lab」(BigdataAILab),獲取 完整源代碼
推薦相關閱讀
一、AI 實戰系列
二、大話深度學習系列
三、AI 雜談
四、大數據超詳細系列