場景文本的識別能夠用文本檢測+文本識別兩個過程來作,近年來端到端的場景文本識別(即Text Spotting)愈來愈引發學術界的重視,而華中科技大學白翔老師組的 Mask TextSpotter v一、v2 一直是該領域的表明性工做。git
近日 Mask TextSpotter v3 發佈,代碼已開源,論文 Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting 詳細介紹了其要解決的問題、使用的方案和達到的性能,這次更新依然帶來驚喜,在多個數據集上大幅刷新了SOTA!github
該文做者信息:
算法
做者來自華中科技大學和 Facebook AI。
微信
文中稱 Mask TextSpotter v3 在 ICDAR 2013 數據集上提高了 21.9個百分點,在Total-Text 數據集上提高了5.9個百分點,在MSRA-TD500 數據集上也達到了SOTA,證實該算法具備強大的應對文本旋轉、形狀多變和極端縱橫比的魯棒性。網絡
要解決的問題app
以下圖:編輯器
以前的端到端文本識別模型使用包圍文本的矩形框做爲Proposals,在應對旋轉、形狀任意和極端縱橫比的文本時存在明顯的缺陷。圖中(a)內部的Proposals對應的特徵包含鄰接文本的特徵,不能很好的識別文本。性能
而Mask TextSpotter v3使用一種稱之爲分割候選網絡( Segmentation Proposal Network )生成多邊形Proposals,並在此Proposals基礎上計算hard ROI 特徵,更好的表徵了文本區域,能夠取得更好的識別結果。flex
Mask TextSpotter v3 的關鍵是如何獲得包圍文本的多邊形Proposals(經過分割的思想),和硬加權的hard ROI 特徵,做者的實驗證實去除干擾的hard ROI 特徵可大幅提升識別精度。網站
Mask TextSpotter v3總體流程
以下圖:
Mask TextSpotter v3 使用U-Net結構提取分割的特徵,同FPN不一樣,v3 直接將不一樣的尺度特徵融合成特徵 F,使用 F 作文本區域的預測,對預測獲得的在(0,1)之間的連續值結果,使用DB(Real-time scene text detection with differentiable binarization,AAAI 2020)二值化獲得多個文本區域,而後將連通的區域做爲一個文本實例的收縮(這裏是關鍵!),對其進行必定係數的膨脹操做,即獲得了文本Proposal。
獲得文本區域 Proposal 後,僅含有0和1元素的二值多邊形mask矩陣與特徵按元素相乘,獲得Hard ROI masking 特徵。此處名中的Hard(硬)由於這裏是僅含有0與1的二值加權,ROI masking 操做按照多邊形 mask 將特徵在表示對應區域上「提精」了。
到這裏既找到了文本區域,又有了每一個文本區域對應的特徵,做者按照Mask TextSpotter v2 的流程進行識別,使用Fast R-CNN算法,字符分割模塊和空間注意力模型都被用於識別。
在訓練的時候,要製做分割標籤,下圖爲標籤生成示意圖:
Mask TextSpotter v3 針對 v2 中的 Proposal 的產生進行了改進,並利用Hard ROI masking 提精了文本實例對應的ROI特徵,能夠在文本檢測的三大難題(旋轉、形狀任意、極端縱橫比)中獲得更好的結果。
實驗結果
做者在多個數據集上進行了實驗,如下爲在三個數據集上識別結果可視化:
應對旋轉,比v2更好:
應對極端縱橫比,比v2更好:
應對形狀任意文本,比v2更好:
如下爲在ROIC13數據集上在檢測任務和端到端識別任務中的結果比較,大幅超越以前的SOTA:
如下爲在MSRA-TD500數據集上在檢測任務中的結果:
在Total-Text 數據集上端到端識別結果:
應對小實例文本數據集,在IC15上的結果比較,v3 取得了三個最好結果:
總結與思考
Mask TextSpotter v3 在端到端文本識別任務中實現了更高的精度,得益於從分割中得到文本多邊形區域表示和Hard ROI masking 特徵提精方法。
值得一提的是, v3 基於 v2 和可微分二值化方法 DB 等,這些研究都出自華科白翔老師組,體現出做者們對問題的"系統性"思考而產生的不斷的技術創新。
論文地址:
https://arxiv.org/abs/2007.09482
代碼地址:
https://github.com/MhLiao/MaskTextSpotterV3
在我愛計算機視覺公衆號後臺回覆「MaskTS」,便可收到論文和代碼下載。
備註:ocr
OCR交流羣
文本檢測、識別、編輯等更多最新技術,若已爲CV君其餘帳號好友請直接私信。
微信號:aicvml
QQ羣:805388940
微博知乎:@我愛計算機視覺
投稿:amos@52cv.net
網站:www.52cv.net
在看,讓更多人看到
本文分享自微信公衆號 - 我愛計算機視覺(aicvml)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。