曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

【AAAI 2019】SPCNet算法

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

這篇文章是謝恩澤在face++實習期間完成的一個工做,被AAAI2019接收,主要是作任意形狀的場景文本檢測,同時抑制錯誤樣本的檢測。網絡

arXiv:https://arxiv.org/abs/1811.08605ide

Motivation測試

過去場景文字檢測模型大多分爲以下兩類:1,基於語義分割的檢測。2,基於邊界框迴歸的檢測。3d

這些方法的劣勢在於不能很好的處理彎曲文字,而彎曲文字在天然場景中也是大量存在的。blog

咱們考慮到彎曲文字能夠經過實例分割的方法去處理,因而基於Mask R-CNN 去作。ci

ECCV2018有一篇Mask Text Spottor也是用了mask rcnn作了端到端識別,比咱們早一點,作研究有局部撞車是常態了。。。不過eccv那篇對Maskrcnn自己並未作過多修改,創新之處主要在識別部分。get

言歸正傳,本文的SPCnet將Mask R-CNN做爲baseline,同時引入了text context 模塊和re-score機制,從而提升檢測準確率,下降FP的出現。it

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

這張圖是re-score模塊的可視化圖,能夠看到,mask rcnn將水平box的分類分數最終的score,對於傾斜文本不是很友好,而且可能會引入fp,咱們在這裏將語義分割圖上的響應和本來的score融合起來,獲得的fus-score能夠緩解mask rcnn直接移植到文字檢測上分類分數不許的問題。io

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

整個網絡流程以下,a是fpn結構,b是text context(TCM)模塊,d是TCM具體的方法。

整個方法在mask rcnn的基礎上多了一個分支作文字的語義分割,並把語義分割的中間特徵和檢測分支的特徵融合起來,再把語義分割的預測結果做爲一個attention mask 乘回feature map,起到一個對特徵attention的做用。

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

這塊是重打分的一個可視化說明,綠色的是水平box,紅色的是instance seg的結果,下面的是全局語義分割的結果,咱們把instance seg的結果投影到語義分割圖上,並在該區域內算一個響應值,獲得instance score,並和原來的classification score融合獲得最終的score。

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

該部分是label generation部分,主要是bounding box, instance seg和semantic seg的label。

消融實驗

咱們在icdar2017 val上作了實驗,發現TCM和RS分別能提升模型的最終結果。在recall保持一致的狀況下precision漲點,說明能有效抑制FP。

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

在icdar17,15,13和total-text(多語言,多方向,水平文本,彎曲文本)上都是state-of-the-art,充分證實了該方法的有效性。

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

PS:ic17上文字scale比例差距很大,因此隨便寫了個簡陋的多尺度測試竟然漲4個點。。。。。

一些可視化效果圖:

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

在ICDAR2015上對比一些經典方法的FP狀況,能夠看到咱們的方法能夠有效抑制FP。

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

總結:這個工做是的第一份正兒八經的科研工做,在曠視大約兩個半月時間完成,仍是比較欣慰的,二做是一個本科生,也參與了不少工做在裏面,同時也感謝不少人給予了很多幫助。

但願本身之後能在計算機視覺領域多發表高水平paper,同時歡迎同行多多交流。下面是個人知乎原文連接,歡迎評論交流。點擊閱讀原文,也能夠直接訪問。

相關文章
相關標籤/搜索