Paper Reading:Receptive Field Block Net for Accurate and Fast Object Detection

論文:Receptive Field Block Net for Accurate and Fast Object Detection 發表時間:2018 發表做者:(Beihang University)Songtao Liu, Di Huang, Yunhong Wang 發表刊物/會議:ECCV 論文連接:論文連接算法

一些檢測論文會依賴很深的 CNN 網絡來提高效果,但此類網絡會犧牲運行速度。在 RFB 論文中,做者由視覺感覺野(Receptive Fields)出發提出了感覺野 RFB 模塊(Receptive Fields Block)。經過膨脹卷積和增長 Inception 結構等方法使得網絡結構的感覺野變大,這樣能夠在不增長網絡深度的前提下保持較高的檢測效果和較快的運行速度。 本文強調經過人爲設計機制,使用輕量級網絡來實現其高準確性和高速率。提出RFB模塊進行人類視覺系統的大小和離心率的模擬,旨在加強輕量級CNN網絡的深層特徵。將RFB模塊集成到SSD網絡結構的頂端卷積層,在控制計算損失的狀況下準確度有必定提高。經過將其鏈接到MobileNet證實其通用能力。網絡

框架

經過改進 SSD 特徵提取網絡,使卷積核的感覺野能夠覆蓋更多範圍,提高檢測效果。算法主要是對網絡中卷積的結構進行改進,至關於把 SSD 的基礎網絡替換爲一個相似於 Inception 的網絡,並將普通卷積改成了膨脹卷積,使得每一個卷積的感覺野變得更大。RBF 網絡經過模仿人類感覺野使基礎網絡能夠學到更多尺度的信息,從而在不增長參數的前提下提高準確率。框架

RFBNet 主要創新能夠參考如下兩張圖:測試

RFB-NET總體框架1 RFB-NET總體框架2

做者參考 Inception 結構,將 SSD 的基礎網絡改進爲多Branch結構。每一個 RFB(感覺野模塊)由不一樣大小的普通卷積+Dilation Conv 構成。如 $11$ 卷積接 $33$ 卷積,$33$ 卷積接 $33$ 膨脹卷(感覺野爲 $99$),$55$ 卷積接 $33$ 膨脹卷積(感覺野爲 $1515$)。而後將這三個結構 concat 在一塊兒共同做用。膨脹卷積如圖所示,雖然 3*3 的卷積的參數個數和普通卷積同樣,但其覆蓋範圍更大。設計

其實每一個卷積核不覆蓋很小的範圍在 deformable conv 論文中也早有說起。做者在對比中提到,deformable 的每一個像素的做用是相同的,但 RFB 結構能夠經過對不一樣尺度的卷積設定不一樣權重使不一樣尺度的信息的做用不一樣。orm

在實現過程當中,做者使用了兩種不一樣類型的 RFB:get

RFB-NET3

A 結構分支更多,卷積核更小,且沒有 $55$ 卷積核(做者在使用中使用兩個$33$ 卷積代替 $5*5$ 卷積)這兩種構造在最後的 SSD 物體檢測網絡中的位置是不一樣的。根據做者的說法,在更靠前的網絡,爲了模仿人類更小的感覺野,因此使用了更多分枝,且卷積核更小。事實上在使用過程當中,只有第一層用了 A 結構。it

RFB-NET4

咱們看一下總體的網絡結構,能夠看到 RFB a 結構只在提取 VGG43 的特徵時使用,其餘的 RFB 都是 B 結構。另外一個有趣的現象是最後幾層依然使用了原始的卷積操做。由於在這些層 feature map 的尺寸已經很小了。較大的卷積核(5*5)不能運行在上面。io

算法效果

VOC 數據集的 mAP 能夠達到 80.5%。做者在其餘基礎網絡上也測試了準確率,發現也有提高。證實 RFB 結構的效果提高具備廣泛性。此外,做者嘗試了使用 RFB 網絡從零開始訓練。最終的 mAP 爲 77.6 (DSOD 爲 77.7),總體表現差很少。ast

RFB-NET5 RFB-NET6

相關文章
相關標籤/搜索