Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network（利用像素聚合網絡進行高效準確

時間 2019-11-09

標籤 efficient accurate arbitrary shaped text detection pixel aggregation network 利用像素聚合網絡進行高效準確欄目 HTML 简体版

原文原文鏈接

PSENet V2昨日剛出，今天翻譯學習一下。算法

　　場景文本檢測是場景文本閱讀系統的重要一步，隨着卷積神經網絡的快速發展，場景文字檢測也取得了巨大的進步。儘管如此，仍存在兩個主要挑戰，它們阻礙文字檢測部署到現實世界的應用中。第一個問題是速度和準確性之間的平衡。第二個是對任意形狀的文本實例進行建模。最近，已經提出了一些方法來處理任意形狀的文本檢測，可是它們不多去考慮算法的運行時間和效率，這可能在實際應用環境中受到限制。在本文中，咱們提出了一種高效且準確的任意形狀文本檢測器，稱爲 PSENet V2，它配備了低計算成本的分割模塊和可學習的後處理方法。
　　更具體地，分割模塊由特徵金字塔加強模塊（Feature Pyramid Enhancement Module，FPEM）和特徵融合模塊（Feature Fusion Module，FFM）組成。FPEM 是一個可級聯的 U 形模塊，能夠引入多級信息來指導更好的分割。FFM 能夠將不一樣深度的 FPEM 給出的特徵匯合到最終的分割特徵中。可學習的後處理由像素聚合模塊（Pixel Aggregation，PA）實現，其能夠經過預測的類似性向量精確地聚合文本像素。幾個標準基準測試的實驗驗證了所提出的 PSENet V2 的優越性。值得注意的是，咱們的方法能夠在 CTW1500 上以 84.2 FPS 實現 79.9％的 F-measure。據咱們所知，PSENet V2 是第一種可以實時檢測任意形狀文本實例的方法。
網絡

Figure 1. The performance and speed on curved text dataset CTW1500. PAN-640 is 10.7% better than CTD+TLOC, and PAN-320 is 4 times faster than EAST.架構

1.介紹框架

前面的一些介紹省略，看PAN：函數

做者說提出一個任意形狀的文本檢測器，namely Pixel Aggression Network（像素聚合網絡，PAN），能夠平衡速度與性能。如圖2所示，只有兩步：1)經過分割網絡預測文本區域, 內核和類似性向量. 2) 從預測的內核重建完整的文本實例. 爲了實現高效性, 須要縮減這兩個步驟的計算時間. 首先，分割須要輕量級主幹. 文章使用ResNet18做爲PAN的主幹網絡. 然而該輕量級主幹在特徵提取方面相對虛弱,所以所以，它的特徵一般具備較小的感覺域和較弱的表示能力。爲了彌補這一缺陷，做者提出了一種低計算成本的分割主體, 包括兩個模塊: 特徵金字塔加強模塊(FPEM)和特徵金字塔融合模塊(FFM). FPEM是一個由可分離卷積層構建成的U型模塊, 如圖4.性能

因此, FPEM可以以最小計算開銷，經過融合高層和低層信息來加強不一樣尺度的特徵．另外，FPEM是級聯的，這容許咱們經過在其後附加FPEM來補償輕量級主幹的深度. 見圖3. 學習

爲了聚合高級和低級語義信息, 文章在最終分割前, 引入FFM來融合由不一樣深度的FPEM生成的特徵. 此外, 爲了準確重建完整的文本實例, 做者提出了一個可學習的後處理方法, 即像素聚合( Pixel Aggregation (PA)), 改方法能夠經過預測的類似性向量引導文本像素來校訂內核。測試

文章爲了證實PAN的有效性, 在四個基準數據集上進行了擴展實驗, 這四個基準數據集是: CTW1500 , Total-Text , ICDAR 2015 and MSRA-TD500. 其中, CTW1500 , Total-Text 是爲彎曲文本檢測設計的新數據集.spa

總之呢, 做者說此文的貢獻是三倍的. 首先, 提出了一個輕量級的segmentation neck，由特徵金字塔加強模塊（FPEM）和特徵融合模塊（FFM）組成，它們是兩個能夠改善網絡特徵表示的高效模塊; 其次, 文章提出像素聚合, 其中文本類似性向量能夠由網絡學習而且用於選擇性地聚合文本內核附近的像素。最後, 文章提出的方法能夠在兩個彎曲的文本基準測試中實現最早進的性能，同時仍然保持58 FPS的預測速度。翻譯

最後, 做者說, 迄今爲止他們提出的這一算法是第一個能夠實現實時準確檢測彎曲文本的算法.

2.相關工做

這一部分略讀.

基於深度學習的文本識別主要有兩種方法: anchor-based methods和 anchor-free methods, 大體上, 前者受目標檢測啓發, 用到諸如Faster R-CNN, SSD等目標檢測算法；後者將文本檢測視爲文本分割問題來處理，用到FCN等(語義)分割算法. 描述過於籠統和片面, 有興趣可詳細關注一下該歷史.

3.本文算法

3.1 總體架構

特徵聚合網絡PAN遵循基於分割的pipeline去檢測任意形狀的文本實例, 見圖2. 爲了實現高效性, 分割網絡的主幹必須是輕量級的. 然而輕量級主幹可以提供的特徵每每具備較小的感覺域和較弱的表示能力。鑑於此，做者提出可以經過有效計算來細化特徵的segmentation head。包括兩個模塊：特徵金字塔加強模塊FPEM和特徵融合模塊FFM 分別見圖3 和圖4。FPEM是級聯結構，如前所述，它能以最小計算開銷，經過融合高層和低層信息來加強不一樣尺度的特徵．另外，FPEM是級聯的，這容許咱們經過在其後附加FPEM來補償輕量級主幹的深度。而後，引入FFM來融合由不一樣深度的FPEM生成的特徵。

如圖3的g所示，像素聚合網絡PAN預測文本區域，以描述文本實例的完整形狀，而且預測kernels來區分不一樣的文本實例（如圖３的ｈ所示）。PAN也爲每個像素提供類似度向量（如圖３的i）。so that 像素的類似度向量和來自同一文本的kernel之間的距離是很小的.

圖3 展現了PAN的總體框架．做者使用輕量級模型ResNet－１８做爲PAN的主幹網絡．卷積層的２，３，４，５層的卷積階段分別產生四個特徵圖, 注意, 這四步卷積操做對應於輸入圖片,分別採用4, 8, 16, 32的卷積步長. 做者使用1*1卷積將每一個特徵圖的通道數減小到128,同時獲取到一個薄(thin)的特徵金字塔F_r. 該特徵金字塔經過n_c級聯的FPEMs得以加強. 每個 FPEM都產生一個加強的特徵金字塔, 因此會有F¹, F², ......, F^n_c個加強的特徵金字塔. 特徵融合模塊FFM將這n_c個加強的特徵金字塔融合爲一個特徵圖F_f, 其步長爲4個pixels, 通道數爲512. F_f用於預測文本區域, 內核kernels, 和類似度向量. 最後呢, 做者使用一個簡單高效的後處理算法來得到最後的文本實例.

3.2 特徵金字塔加強模塊FPEM

如圖4, FPEM是一個u型模塊. 包括兩個階段, 上採樣加強和下采樣加強. 上採樣加強做用於輸入特徵金字塔, 在這一階段, FPEM在具備32,16,8,4像素的步長的特徵圖上迭代地執行加強。在下采樣階段, 輸入是經過放大加強產生的特徵金字塔，而且下采樣加強從4步到32步進行實施。

同時, 下采樣加強階段的輸出特徵金字塔是FPEM的最終輸出結果. 做者使用了分離的卷積(3*3深度的卷積後跟1*1投影)而不是常規卷積去構建FPEM的鏈接部分(見圖4虛線部分). 所以, 所以，FPEM可以以較小的計算開銷擴大感覺野（3×3深度卷積）和加深網絡（1×1卷積）。

相似於特徵金字塔網絡, FPEM可以經過融合低級和高級信息來加強不一樣尺度的特徵．此外，與FPN不一樣, FPEM有兩外兩個優點，首先，FPEM是一個級聯的模塊，隨着級聯數量n_c的增長，不一樣尺度的特徵圖更加融合，特徵的感知領域變得更大。其次, FPEM的計算開銷很小，它創建在分離卷積的基礎上, 這隻須要很小的計算開銷, FPEM每秒所執行的浮點運算次數(FLOPS)只有FPN的五分之一．

3.3 特徵融合模塊FFM

FFN用於融合不一樣深度的特徵金字塔F¹, F², ......, F^n_c, 由於對於語義分割來講, 低級語義信息和高級語義信息都是重要的. 組合這些特徵金字塔的直接有效方法是對它們進行上採樣和級聯。然而, 可是，此方法給出的融合特徵圖具備較大的通道數量(4*128*n_c), 這拖慢了最終預測的進度. 所以, 做者提出了其餘的融合方法, 如圖5所示. 首先經過逐元素增長的方法組合相應比例的特徵圖。而後，對添加後的特徵圖進行上採樣並鏈接成僅具備4×128個通道的最終特徵圖。

3.4 像素聚合PA

文本區域保持了文本實例的完整形狀, 可是如圖3 g, 這些緊密相關的文本區域一般是重疊的, 相反, 使用kernels能夠區分文本實例(圖3 h).然而, kernel並不是完整的文本實例. 爲了重建完整的文本實例, 須要將文本區域中的像素合併到kernel中, 做者提出了一個可學習的算法, 即像素聚合, 來引導文本像素朝向正確的內核發展。

在像素聚合階段, 做者借鑑聚類的思路從kernel中重建完整的文本實例. 文本實例的kernel爲聚類中心. 須要被聚類的樣本是文本像素. 固然，爲了將文本像素聚合到相應的內核，文本像素和同一文本實例的內核之間的距離應該很小。在訓練階段, 做者使用下面的聚合損失去實現這一規則.

其中N是文本實例的個數，T_i是第i個文本實例，定義了像素p和第T_i個文本實例的kernel K_i之間的距離。是一個常量，根據經驗設置爲0.5，用於過濾容易樣本。是像素p的類似度向量。是kernel K_i的類似度向量，能夠經過來計算。

另外，聚類中心須要保持區分度，所以不一樣文本實例的kernel應該保持足夠的距離。做者使用公式（3）所示的判別損失來描述數據訓練過程當中的這一規則：

試圖保持內核之間的距離不小於在全部實驗中設置爲3的距離。

在測試階段，做者使用預測到的類似性向量來引導文本區域中的像素到相應的內核。後處理步驟細節：

1）在kernel的分割結果中查找鏈接部分，每一個鏈接部分都是單個kernel。

2）對於每個kernel K_i，在預測文本區域中有條件地合併其相鄰文本像素（4-way）p，而其類似向量的歐幾里德距離小於d（文中通過測試設置爲6）.

3）重複第二步，直到沒有符合條件的相鄰文本像素。

3.5 損失函數

本文損失函數：

是文本區域的損失，是kernel的損失，α和β用於平衡四者之間的損失，文章分別將其設置爲0.5和0.25。

考慮到文本像素和非文本像素的極端不平衡性，做者借鑑psenet，使用dice loss去監督文本區域的分割結果和kernels的分割結果。所以，可分別用下列式子表示：

表示分割結果中第i個像素的值，表示文本區域的ground truth。文本區域的ground truth是一個二進制圖像，該二進制圖像中文本像素爲1 ，非文本像素爲0。

一樣的，分別表示預測結果中第i個像素的值和kernels的ground truth。經過縮小ground truth多邊形來生成kernels的ground truth。做者使用psenet的方法經過設置比率r縮小原始多邊形。在計算的時候，做者也使用 Online Hard Example Mining (OHEM)以忽略簡單的非文本像素。在計算時，做者只考慮ground truth中的文本像素。

4. 實驗

4.1 數據集

4.2 實施細節

4.3 消融研究

4.4 與 State-of-the-Art Methods做比較

4.5 結果可視化與速度分析

5. 結論

本文提出了一種有效的框架來實時檢測任意形狀的文本。首先介紹了一個由特徵金字塔加強模塊和特徵融合模塊組成的輕量級分割head，它有利於特徵提取，同時帶來一些額外的計算。此外，提出Pixel Aggregation預測文本kernels和周圍像素之間的類似性向量。這兩個優勢使PAN成爲一種高效準確的任意形狀的文本檢測器。與之前最早進的文本檢測器相比，Total-Text和CTW1500的大量實驗證實了其在速度和準確性方面的優點。