天然場景的文本檢測是當前深度學習的重要應用,在以前的文章中已經介紹了基於深度學習的文本檢測模型CTPN、SegLink(見文章:大話文本檢測經典模型CTPN、大話文本檢測經典模型SegLink)。典型的文本檢測模型通常是會分多個階段(multi-stage)進行,在訓練時須要把文本檢測切割成多個階段(stage)來進行學習,這種把完整文本行先分割檢測再合併的方式,既影響了文本檢測的精度又很是耗時,對於文本檢測任務上中間過程處理得越多可能效果會越差。那麼有沒有又快、又準的檢測模型呢?算法
1、EAST模型簡介網絡
本文介紹的文本檢測模型EAST,便簡化了中間的過程步驟,直接實現端到端文本檢測,優雅簡潔,檢測的準確性和速度都有了進一步的提高。以下圖:分佈式
其中,(a)、(b)、(c)、(d)是幾種常見的文本檢測過程,典型的檢測過程包括候選框提取、候選框過濾、bouding box迴歸、候選框合併等階段,中間過程比較冗長。而(e)便是本文介紹的EAST模型檢測過程,從上圖可看出,其過程簡化爲只有FCN階段(全卷積網絡)、NMS階段(非極大抑制),中間過程大大縮減,並且輸出結果支持文本行、單詞的多個角度檢測,既高效準確,又能適應多種天然應用場景。(d)爲CTPN模型,雖然檢測過程與(e)的EAST模型類似,但只支持水平方向的文本檢測,可應用的場景不如EAST模型。以下圖:函數
2、EAST模型網絡結構oop
EAST模型的網絡結構,以下圖:學習
EAST模型的網絡結構分爲特徵提取層、特徵融合層、輸出層三大部分。大數據
下面展開進行介紹:人工智能
一、特徵提取層spa
基於PVANet(一種目標檢測的模型)做爲網絡結構的骨幹,分別從stage1,stage2,stage3,stage4的卷積層抽取出特徵圖,卷積層的尺寸依次減半,但卷積核的數量依次增倍,這是一種「金字塔特徵網絡」(FPN,feature pyramid network)的思想。經過這種方式,可抽取出不一樣尺度的特徵圖,以實現對不一樣尺度文本行的檢測(大的feature map擅長檢測小物體,小的feature map擅長檢測大物體)。這個思想與前面文章介紹的SegLink模型很像;.net
二、特徵融合層
將前面抽取的特徵圖按必定的規則進行合併,這裏的合併規則採用了U-net方法,規則以下:
三、輸出層
最終輸出如下5部分的信息,分別是:
其中,text boxes的位置座標與text quadrangle coordinates的位置座標看起來彷佛有點重複,其實否則,這是爲了解決一些扭曲變形文本行,以下圖:
若是隻輸出text boxes的位置座標和旋轉角度(x, y, w, h,θ),那麼預測出來的檢測框就是上圖的粉色框,與真實文本的位置存在偏差。而輸出層的最後再輸出任意四邊形的位置座標,那麼就能夠更加準確地預測出檢測框的位置(黃色框)。
3、EAST模型效果
EAST文本檢測的效果以下圖,其中,部分有仿射變換的文本行的檢測效果(如廣告牌)
EAST模型的優點在於簡潔的檢測過程,高效、準確,並能實現多角度的文本行檢測。但也存在着不足之處,例如(1)在檢測長文本時的效果比較差,這主要是因爲網絡的感覺野不夠大;(2)在檢測曲線文本時,效果不是很理想
4、Advanced EAST
爲改進EAST的長文本檢測效果不佳的缺陷,有人提出了Advanced EAST,以VGG16做爲網絡結構的骨幹,一樣由特徵提取層、特徵合併層、輸出層三部分構成。經實驗,Advanced EAST比EAST的檢測準確性更好,特別是在長文本上的檢測。
網絡結構以下:
牆裂建議
2017年,Xinyu Zhou 等人發表了關於EAST的經典論文《 EAST: An Efficient and Accurate Scene Text Detector 》,在論文中詳細介紹了EAST的技術原理,建議閱讀該論文以進一步瞭解該模型。
關注本人公衆號「大數據與人工智能Lab」(BigdataAILab),而後回覆「論文」關鍵字可在線閱讀經典論文的內容。
推薦相關閱讀