1、文字檢測html
(1)方法算法
方法主要是基於EAST和Refinenet進行的。首先,圖像通過Resnet50獲得不一樣層的特徵,而後經過Refinet的特徵融合方式融合多層特徵,接着,通過多任務迴歸預測每一個特徵圖上的點的分數和RBOX,最後,在多尺寸檢測算法里加了過濾機制。網絡
方法流程圖以下:框架
(2)涉及到的點ide
1.EAST學習
A.網絡結構圖測試
B.PVANet和C.Relu大數據
C.Resnet50spa
殘差網絡詳細原理見:https://www.jianshu.com/p/e58437f39f65 和 http://www.javashuo.com/article/p-btewjukp-gg.html .net
D.Loss
交叉熵損失方面的原理可參考:https://blog.csdn.net/u014313009/article/details/51043064和 https://blog.csdn.net/chaipp0607/article/details/73392175
E.說明
EAST是一個單階段的快速而精準的場景文字檢測框架。它主要利用一個全卷積模型來產生單詞或者文本線級別的密集預測,相比於之前的複雜場景文字檢測算法減小了許多冗餘操做。對於文本的預測結果,既能夠是旋轉的矩形表示,也能夠是任意的四邊型表示,最後再通過非極大值抑制(NMS)的處理而後輸出結果。整個框架主要借鑑DenseBox的網絡框架,把圖片輸入全卷積網絡當中,而後對文本區域進行多通道的像素級別的預測。其中一個通道用來輸出文本的置信分數,而另外的通道則用來輸出文本的幾何座標信息。
網絡基礎結構如圖所示,首先,圖像通過多層的全卷積網絡(如左邊黃色區域所示),即基礎網絡,獲得不一樣深度的卷積特徵();接着,經過反捲積(unpool)、不一樣的卷積、合併等操做,多層的卷積特徵融合成在一塊兒(
);最後,網絡根據任務的不一樣,輸出對像素點文本機率置信度的預測以及文本邊框的預測。
2.Refinet
A.網絡結構圖
B.說明
目前深度卷積網絡在目標識別和圖像分割等問題上表現突出,但頻繁的下采樣丟失了原圖像的信息。RefineNet網絡,使用殘差連接顯式將各個下采樣層和後面的網絡層結合在一塊兒。這樣網絡高層的語義特徵能夠直接從底層的卷積層中得到精煉。一個RefineNet單元使用殘差連接和identity映射,對於端對端的訓練頗有效。RefineNet還引入了一種連接殘差池化,它能夠捕獲大量背景信息。
如圖所示,同樣是將不一樣大小的特徵圖融合在一塊兒,RefineNet的融合方式會比較複雜。RefineNet具體結構如圖2.2所示,網絡能夠融合多個不一樣大小的特徵圖。首先,特徵圖先通過倆個卷積單元塊(b);接着小的特徵圖經上採樣操做得到與大特徵圖同樣的大小,最終求和獲得一個特徵圖(c);最後,特徵圖會通過一個鏈式殘差池化(d)操縱,其結構相似於殘差網絡的快捷連接,只不過通過的不是卷積操做,而是池化操做。做者稱,這樣的操做有利於網絡識別出屬於背景的像素點,這將有利於文字檢測中斷定像素屬性。咱們將圖1中本來簡單的特徵融合,替換成RefineNet。
3.帶過濾的多尺度檢測
當文本的尺寸過大時,因爲訓練數據樣本不均勻的問題,大的文本每每會檢測不全或者被忽略。而文本尺寸太小時,每每不能較精確的定位文本的邊界。經過多尺寸檢測的方法,一張圖像每每被縮放到不一樣尺度進行文本檢測,最終將檢測到的文本框經過非極大值抑制處理獲得最後的結果。然而由於縮放致使的文本過大或太小將會對多尺寸檢測產生負面的影響。因而咱們在多尺寸檢測的基礎上加入了過濾原則:縮小的圖像作完文本檢測後要過濾小面積小的框;放的的圖像作完文本檢測後要過濾掉面積大的框。咱們在驗證集上經過對比找到了最佳的縮放尺寸和過濾閾值。
(2)文字檢測以往其餘方法
參考:http://www.javashuo.com/article/p-wyvsksbt-x.html
(3)比賽
1.網址和任務
A.ICPR MTWI2018挑戰賽二:網絡圖像的文本檢測,訓練集10000張,測試集10000張,標註四點座標。https://tianchi.aliyun.com/competition/information.htm?raceId=231651
B.百度-西交大大數據競賽:商家招牌的分類與檢測。http://dianshi.baidu.com/gemstone/competitions/detail?raceId=17%20
分類:共100類,每類10-30張訓練數據,5-10張測試數據,訓練數據2725張,測試數據1000張
檢測:9000張訓練,4351張測試。
2.實驗細節.
A.實驗分爲兩個階段:第一個階段,咱們將訓練集分爲9000張的訓練樣本和1000張的驗證樣本,以0.001學習率,以8的batch_size,512的輸入大小訓練模型50萬次。第二階段,咱們將1萬張圖片都做爲訓練樣本,以0.0005的學習率,6的batch_size,544的輸入大小繼續訓練模型20萬次。
B.分類用Resnet152,增長高斯模糊、旋轉、縮放、翻轉、裁剪、灰度和彩色進行投票。
C.一些嘗試:
預訓練、採用多個網絡進行融合、把圖像進行增強,組成五個通道再訓練和測試、放大預測所用的特徵圖、閾值設低提升召回率,再用規則過濾、加大訓練尺度、改爲二階段的、變形卷積、空洞卷積、Resnet_inception、anchor。
3.結果
A.f值=0.695,acc=0.75,recall=0.647
B.分類=0.994,檢測=0.815
(4)對EAST作的改進
1.focal loss
參考:https://blog.csdn.net/qq_34564947/article/details/77200104
2.feature map*2
3.多尺度
4.數據擴充
5.規則過濾
6.多層融合方式
(5)代碼心得
1.單階段速度快,訓練慢,效果沒雙階段好,緣由多是樣本不平衡。
2.改進的模型不要在原來的基礎上繼續訓練,要在最初的基礎上從新訓練,由於學習率可能會衰減到沒有改進的空間。
3.作好實驗記錄,分析變量。
2、文本語種識別
1.方法
VGG16+全局平均池化方式
VGG圖: 識別方法網絡圖:
2.特色
A.採用focal loss
B.採用兩個模型進行加權,一個是正常數據,一個是過採樣的數據
C.全局平均池化,解決圖像大小不一致的問題
3、ICDAR15上結果
算法 | recall | precision | f-measure |
EAST | 0.735 | 0.836 | 0.78 |
+resnet | 0.749 | 0.841 | 0.792 |
+Focal loss | 0.778 | 0.861 | 0.817 |
+refinenet | 0.762 | 0.885 | 0.819 |
f*2 | 0.779 | 0.878 | 0.826 |