大話文本檢測經典模型：EAST

時間 2019-11-07

標籤大話文本檢測經典模型 east 简体版

原文原文鏈接

天然場景的文本檢測是當前深度學習的重要應用，在以前的文章中已經介紹了基於深度學習的文本檢測模型CTPN、SegLink（見文章：大話文本檢測經典模型CTPN、大話文本檢測經典模型SegLink）。典型的文本檢測模型通常是會分多個階段（multi-stage）進行，在訓練時須要把文本檢測切割成多個階段（stage）來進行學習，這種把完整文本行先分割檢測再合併的方式，既影響了文本檢測的精度又很是耗時，對於文本檢測任務上中間過程處理得越多可能效果會越差。那麼有沒有又快、又準的檢測模型呢？算法

1、EAST模型簡介網絡

本文介紹的文本檢測模型EAST，便簡化了中間的過程步驟，直接實現端到端文本檢測，優雅簡潔，檢測的準確性和速度都有了進一步的提高。以下圖：分佈式

其中，（a）、（b）、（c）、（d）是幾種常見的文本檢測過程，典型的檢測過程包括候選框提取、候選框過濾、bouding box迴歸、候選框合併等階段，中間過程比較冗長。而（e）便是本文介紹的EAST模型檢測過程，從上圖可看出，其過程簡化爲只有FCN階段（全卷積網絡）、NMS階段（非極大抑制），中間過程大大縮減，並且輸出結果支持文本行、單詞的多個角度檢測，既高效準確，又能適應多種天然應用場景。（d）爲CTPN模型，雖然檢測過程與（e）的EAST模型類似，但只支持水平方向的文本檢測，可應用的場景不如EAST模型。以下圖：函數

2、EAST模型網絡結構oop

EAST模型的網絡結構，以下圖：學習

EAST模型的網絡結構分爲特徵提取層、特徵融合層、輸出層三大部分。大數據

下面展開進行介紹：人工智能

一、特徵提取層spa

基於PVANet（一種目標檢測的模型）做爲網絡結構的骨幹，分別從stage1，stage2，stage3，stage4的卷積層抽取出特徵圖，卷積層的尺寸依次減半，但卷積核的數量依次增倍，這是一種「金字塔特徵網絡」（FPN，feature pyramid network）的思想。經過這種方式，可抽取出不一樣尺度的特徵圖，以實現對不一樣尺度文本行的檢測（大的feature map擅長檢測小物體，小的feature map擅長檢測大物體）。這個思想與前面文章介紹的SegLink模型很像；.net

二、特徵融合層

將前面抽取的特徵圖按必定的規則進行合併，這裏的合併規則採用了U-net方法，規則以下：

特徵提取層中抽取的最後一層的特徵圖（f1）被最早送入unpooling層，將圖像放大1倍
接着與前一層的特徵圖（f2）串起來（concatenate）
而後依次做卷積核大小爲1x1，3x3的卷積
對f3，f4重複以上過程，而卷積核的個數逐層遞減，依次爲128，64，32
最後通過32核，3x3卷積後將結果輸出到「輸出層」

三、輸出層

最終輸出如下5部分的信息，分別是：

score map：檢測框的置信度，1個參數；
text boxes：檢測框的位置（x, y, w, h），4個參數；
text rotation angle：檢測框的旋轉角度，1個參數；
text quadrangle coordinates：任意四邊形檢測框的位置座標，(x1, y1), (x2, y2), (x3, y3), (x4, y4)，8個參數。

其中，text boxes的位置座標與text quadrangle coordinates的位置座標看起來彷佛有點重複，其實否則，這是爲了解決一些扭曲變形文本行，以下圖：

若是隻輸出text boxes的位置座標和旋轉角度（x, y, w, h,θ），那麼預測出來的檢測框就是上圖的粉色框，與真實文本的位置存在偏差。而輸出層的最後再輸出任意四邊形的位置座標，那麼就能夠更加準確地預測出檢測框的位置（黃色框）。

3、EAST模型效果

EAST文本檢測的效果以下圖，其中，部分有仿射變換的文本行的檢測效果（如廣告牌）

EAST模型的優點在於簡潔的檢測過程，高效、準確，並能實現多角度的文本行檢測。但也存在着不足之處，例如（1）在檢測長文本時的效果比較差，這主要是因爲網絡的感覺野不夠大；（2）在檢測曲線文本時，效果不是很理想

4、Advanced EAST

爲改進EAST的長文本檢測效果不佳的缺陷，有人提出了Advanced EAST，以VGG16做爲網絡結構的骨幹，一樣由特徵提取層、特徵合併層、輸出層三部分構成。經實驗，Advanced EAST比EAST的檢測準確性更好，特別是在長文本上的檢測。

網絡結構以下：

牆裂建議

2017年，Xinyu Zhou 等人發表了關於EAST的經典論文《 EAST: An Efficient and Accurate Scene Text Detector 》，在論文中詳細介紹了EAST的技術原理，建議閱讀該論文以進一步瞭解該模型。

關注本人公衆號「大數據與人工智能Lab」（BigdataAILab），而後回覆「論文」關鍵字可在線閱讀經典論文的內容。

推薦相關閱讀

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。