本文方法主要解決不規則排列文字的文字識別問題,論文爲以前一篇CVPR206的paper(Robust Scene Text Recognition with Automatic Rectification,方法簡稱爲RARE)的改進版(journal版)。html
方法ASTER全稱爲Attentional Scene TExt Recognizer with Flexible Rectification,包括兩個模塊,一個用來矯正(rectification network),另外一個用來識別(recognition work),以下圖所示。
git
本文要解決的問題是irregular text的識別問題,包括:多方向文字(oriented text)、透視形變文字(perspective text)、曲線文字(curved text),以下圖所示:github
TPS全稱Thin-Plate-Spline,能夠對形變圖像(仿射、透視、曲線排列等)進行校訂,經過對control point進行定位和映射,來獲得校訂後的圖像,方便後續進行識別。以下圖所示,詳細算法能夠閱讀參考文獻1。算法
矯正網絡框架圖以下圖,基本上是用STN的框架,包含三個部分,Localization Network,Grid Generator,以及Sampler。網絡
該網格生成器和以前那篇會議paper(參考文獻3),以及STN(參考文獻2)實際上是同樣的,只是做者將公式用更詳細的公式推導和圖表示了一下。這裏簡單介紹下主要思想,具體公式推導等不細講了。框架
網格生成器的輸入是已有的Control point點集 + 矯正後的圖(還未生成,但給定圖大小能夠取點)上的某個點座標,輸出是該點在矯正前(原圖)上的點座標位置函數
網格生成器能夠當作是一個矩陣變換操做(變換的幾個參數a0-a2, b0-b2能夠經過Control point位置利用優化問題求解方法求出,由於Control Point在矯正先後的圖上的位置都是已知的,故能夠計算出對應關係),實際作預測時也是計算該待測點與已知的control point的位置關係,經過一系列對應關係算出在原圖的位置。貼個圖感覺一下這個對應關係以下,p爲矯正後的點位置,C爲矯正後的Control point的點位置,p'爲矯正前的點位置,C’爲Control point在矯正前的點位置:學習
該Sampler就是給定點映射關係及原圖,生成一張新的矯正後的圖,用到了簡單的插值,以及當超出圖外時直接clip掉。另外,Sampler採用可微的採樣方法,方便梯度的bp。測試
和STN的不一樣點優化
本文在輸入網絡前將原圖resize成小的圖,而後在該小圖上預測control point,而輸入到Grid Generator或Sample計算的時候又映射回原圖大小。這樣的目的是爲了減少網絡參數,下降計算量(但有沒有可能小圖對於control point的prediction會不許?對於識別來說,每一個word的patch塊自己就比較小了,並且小圖映射回大圖的點位置這個偏差比例就會放大?)
和RARE的不一樣點
網絡最後fc層的激活函數不是用tanh,而是直接對值進行clipping(具體怎麼clip論文沒說),這樣作的目的是爲了解決採樣點可能落到圖外面的問題,以及加快了網絡訓練的收斂速度,論文中對此沒有解釋本質緣由,只是說明實驗證實如此
識別網絡採用當前識別的通常思路:
sequence-to-sequence (encoder/decoder框架)+ attention + beam search。
網絡主要分爲兩部分,ConvNet + 雙向LSTM的encoder模塊,和LSTM + attention的decoder模塊。
損失函數以下,須要計算left-to-right的decoder以及right-to-left的decoder損失。除Location Network的FC層權重初始化爲0(防止矯正後的圖distort很是厲害),其他全部網絡層都採用隨機初始化。
結論: 矯正對通常水平樣本(IIIT5k,IC03,IC13)略有提升,對形變比較大的不規則樣本(SVT,SVTP,CUTE)提升3~4個點
Selected results on SVT-Perspective and CUTE80. For every two rows, the first row contains the input images (top), the predicted control points (visualized as green crosses), and the rectified images (bottom). The second row contains the recognition results.
Attention的效果
結論: attention對字符的位置有隱性的定位功能
雙向LSTM的做用
結論:兩個方向的LSTM有必定互補做用
字符長度的影響
結論: 字符小於11時,識別精度差很少,大於11後精度有所降低,由於長文字自己更難
結論:這個效果有點碉堡了...有幾個庫甩第二名好多,就連其餘CVPR2018的paper都可望不可即...
結論:對檢測結果能夠微調,可讓檢測結果更好,這裏提升緣由有兩個,1是由於經過識別把噪聲過濾掉了, 2是位置更準確
多多學習。感謝博主!