文字檢測與識別項目整理

時間 2019-11-17

標籤文字檢測識別項目整理简体版

原文原文鏈接

1、文字檢測html

　　（1）方法算法

　　方法主要是基於EAST和Refinenet進行的。首先，圖像通過Resnet50獲得不一樣層的特徵，而後經過Refinet的特徵融合方式融合多層特徵，接着，通過多任務迴歸預測每一個特徵圖上的點的分數和RBOX，最後，在多尺寸檢測算法里加了過濾機制。網絡

　　方法流程圖以下：框架

　　（2）涉及到的點ide

　　1.EAST學習

A.網絡結構圖測試

　　B.PVANet和C.Relu大數據

　　C.Resnet50spa

　　殘差網絡詳細原理見：https://www.jianshu.com/p/e58437f39f65 和 http://www.javashuo.com/article/p-btewjukp-gg.html .net

　　D.Loss

　　交叉熵損失方面的原理可參考：https://blog.csdn.net/u014313009/article/details/51043064和 https://blog.csdn.net/chaipp0607/article/details/73392175

　　E.說明

　　EAST是一個單階段的快速而精準的場景文字檢測框架。它主要利用一個全卷積模型來產生單詞或者文本線級別的密集預測，相比於之前的複雜場景文字檢測算法減小了許多冗餘操做。對於文本的預測結果，既能夠是旋轉的矩形表示，也能夠是任意的四邊型表示，最後再通過非極大值抑制（NMS）的處理而後輸出結果。整個框架主要借鑑DenseBox的網絡框架，把圖片輸入全卷積網絡當中，而後對文本區域進行多通道的像素級別的預測。其中一個通道用來輸出文本的置信分數，而另外的通道則用來輸出文本的幾何座標信息。

網絡基礎結構如圖所示，首先，圖像通過多層的全卷積網絡（如左邊黃色區域所示），即基礎網絡，獲得不一樣深度的卷積特徵（）；接着，經過反捲積（unpool）、不一樣的卷積、合併等操做，多層的卷積特徵融合成在一塊兒（）；最後，網絡根據任務的不一樣，輸出對像素點文本機率置信度的預測以及文本邊框的預測。

　　2.Refinet

　　A.網絡結構圖

　　B.說明

　　目前深度卷積網絡在目標識別和圖像分割等問題上表現突出，但頻繁的下采樣丟失了原圖像的信息。RefineNet網絡，使用殘差連接顯式將各個下采樣層和後面的網絡層結合在一塊兒。這樣網絡高層的語義特徵能夠直接從底層的卷積層中得到精煉。一個RefineNet單元使用殘差連接和identity映射，對於端對端的訓練頗有效。RefineNet還引入了一種連接殘差池化，它能夠捕獲大量背景信息。

如圖所示，同樣是將不一樣大小的特徵圖融合在一塊兒，RefineNet的融合方式會比較複雜。RefineNet具體結構如圖2.2所示，網絡能夠融合多個不一樣大小的特徵圖。首先，特徵圖先通過倆個卷積單元塊（b）；接着小的特徵圖經上採樣操做得到與大特徵圖同樣的大小，最終求和獲得一個特徵圖（c）；最後，特徵圖會通過一個鏈式殘差池化(d)操縱，其結構相似於殘差網絡的快捷連接，只不過通過的不是卷積操做，而是池化操做。做者稱，這樣的操做有利於網絡識別出屬於背景的像素點，這將有利於文字檢測中斷定像素屬性。咱們將圖1中本來簡單的特徵融合，替換成RefineNet。

　　3.帶過濾的多尺度檢測

　　當文本的尺寸過大時，因爲訓練數據樣本不均勻的問題，大的文本每每會檢測不全或者被忽略。而文本尺寸太小時，每每不能較精確的定位文本的邊界。經過多尺寸檢測的方法，一張圖像每每被縮放到不一樣尺度進行文本檢測，最終將檢測到的文本框經過非極大值抑制處理獲得最後的結果。然而由於縮放致使的文本過大或太小將會對多尺寸檢測產生負面的影響。因而咱們在多尺寸檢測的基礎上加入了過濾原則：縮小的圖像作完文本檢測後要過濾小面積小的框；放的的圖像作完文本檢測後要過濾掉面積大的框。咱們在驗證集上經過對比找到了最佳的縮放尺寸和過濾閾值。

　　（2）文字檢測以往其餘方法

　　參考：http://www.javashuo.com/article/p-wyvsksbt-x.html

（3）比賽

1.網址和任務

A.ICPR MTWI2018挑戰賽二：網絡圖像的文本檢測,訓練集10000張，測試集10000張，標註四點座標。https://tianchi.aliyun.com/competition/information.htm?raceId=231651

B.百度-西交大大數據競賽：商家招牌的分類與檢測。http://dianshi.baidu.com/gemstone/competitions/detail?raceId=17%20

分類：共100類，每類10-30張訓練數據，5-10張測試數據，訓練數據2725張，測試數據1000張

檢測：9000張訓練，4351張測試。

2.實驗細節.

A.實驗分爲兩個階段：第一個階段，咱們將訓練集分爲9000張的訓練樣本和1000張的驗證樣本，以0.001學習率，以8的batch_size，512的輸入大小訓練模型50萬次。第二階段，咱們將1萬張圖片都做爲訓練樣本，以0.0005的學習率，6的batch_size，544的輸入大小繼續訓練模型20萬次。