大話文本檢測經典模型:EAST

天然場景的文本檢測是當前深度學習的重要應用,在以前的文章中已經介紹了基於深度學習的文本檢測模型CTPN、SegLink(見文章:大話文本檢測經典模型CTPN大話文本檢測經典模型SegLink)。典型的文本檢測模型通常是會分多個階段(multi-stage)進行,在訓練時須要把文本檢測切割成多個階段(stage)來進行學習,這種把完整文本行先分割檢測再合併的方式,既影響了文本檢測的精度又很是耗時,對於文本檢測任務上中間過程處理得越多可能效果會越差。那麼有沒有又快、又準的檢測模型呢?算法

 

1、EAST模型簡介網絡

本文介紹的文本檢測模型EAST,便簡化了中間的過程步驟,直接實現端到端文本檢測,優雅簡潔,檢測的準確性和速度都有了進一步的提高。以下圖:分佈式

其中,(a)、(b)、(c)、(d)是幾種常見的文本檢測過程,典型的檢測過程包括候選框提取、候選框過濾、bouding box迴歸、候選框合併等階段,中間過程比較冗長。而(e)便是本文介紹的EAST模型檢測過程,從上圖可看出,其過程簡化爲只有FCN階段(全卷積網絡)、NMS階段(非極大抑制),中間過程大大縮減,並且輸出結果支持文本行、單詞的多個角度檢測,既高效準確,又能適應多種天然應用場景。(d)爲CTPN模型,雖然檢測過程與(e)的EAST模型類似,但只支持水平方向的文本檢測,可應用的場景不如EAST模型。以下圖:函數

 

2、EAST模型網絡結構oop

EAST模型的網絡結構,以下圖:學習

EAST模型的網絡結構分爲特徵提取層、特徵融合層、輸出層三大部分。大數據

下面展開進行介紹:人工智能

一、特徵提取層spa

基於PVANet(一種目標檢測的模型)做爲網絡結構的骨幹,分別從stage1,stage2,stage3,stage4的卷積層抽取出特徵圖,卷積層的尺寸依次減半,但卷積核的數量依次增倍,這是一種「金字塔特徵網絡」(FPN,feature pyramid network)的思想。經過這種方式,可抽取出不一樣尺度的特徵圖,以實現對不一樣尺度文本行的檢測(大的feature map擅長檢測小物體,小的feature map擅長檢測大物體)。這個思想與前面文章介紹的SegLink模型很像;.net

二、特徵融合層

將前面抽取的特徵圖按必定的規則進行合併,這裏的合併規則採用了U-net方法,規則以下:

  • 特徵提取層中抽取的最後一層的特徵圖(f1)被最早送入unpooling層,將圖像放大1倍
  • 接着與前一層的特徵圖(f2)串起來(concatenate)
  • 而後依次做卷積核大小爲1x1,3x3的卷積
  • 對f3,f4重複以上過程,而卷積核的個數逐層遞減,依次爲128,64,32
  • 最後通過32核,3x3卷積後將結果輸出到「輸出層」

三、輸出層

最終輸出如下5部分的信息,分別是:

  • score map:檢測框的置信度,1個參數;
  • text boxes:檢測框的位置(x, y, w, h),4個參數;
  • text rotation angle:檢測框的旋轉角度,1個參數;
  • text quadrangle coordinates:任意四邊形檢測框的位置座標,(x1, y1), (x2, y2), (x3, y3), (x4, y4),8個參數。

其中,text boxes的位置座標與text quadrangle coordinates的位置座標看起來彷佛有點重複,其實否則,這是爲了解決一些扭曲變形文本行,以下圖:

若是隻輸出text boxes的位置座標和旋轉角度(x, y, w, h,θ),那麼預測出來的檢測框就是上圖的粉色框,與真實文本的位置存在偏差。而輸出層的最後再輸出任意四邊形的位置座標,那麼就能夠更加準確地預測出檢測框的位置(黃色框)。

 

3、EAST模型效果

EAST文本檢測的效果以下圖,其中,部分有仿射變換的文本行的檢測效果(如廣告牌)

EAST模型的優點在於簡潔的檢測過程,高效、準確,並能實現多角度的文本行檢測。但也存在着不足之處,例如(1)在檢測長文本時的效果比較差,這主要是因爲網絡的感覺野不夠大;(2)在檢測曲線文本時,效果不是很理想

 

4、Advanced EAST

爲改進EAST的長文本檢測效果不佳的缺陷,有人提出了Advanced EAST,以VGG16做爲網絡結構的骨幹,一樣由特徵提取層、特徵合併層、輸出層三部分構成。經實驗,Advanced EAST比EAST的檢測準確性更好,特別是在長文本上的檢測。

網絡結構以下:

 

牆裂建議

2017年,Xinyu Zhou 等人發表了關於EAST的經典論文《 EAST: An Efficient and Accurate Scene Text Detector 》,在論文中詳細介紹了EAST的技術原理,建議閱讀該論文以進一步瞭解該模型。

 

關注本人公衆號「大數據與人工智能Lab」(BigdataAILab),而後回覆「論文」關鍵字可在線閱讀經典論文的內容

 

推薦相關閱讀

相關文章
相關標籤/搜索