論文連接:arxiv.org/abs/1711.07…git
論文代碼:github.com/ruinmessi/R…github
這篇文章是CV領域頂會ECCV2018中關於目標檢測的文章,文中以SSD模型爲基礎提出了RFB結構,強調兼顧速度與性能。說來也巧,由於項目須要,在看這篇論文以前正好看過提出dilated convolution的那篇文章,可是dilated convolution的結構得到更大感覺野的方式確實對細粒度的分割會比較好,適用圖像分割領域。當我還在想能怎麼用在目標檢測上時,就看到了RFB網絡。雖然做者說是爲了兼顧速度與性能將其應用到one stage的SSD上,但我也在two stage的faster rcnn上,復現出了較好的效果。這是一篇我我的很喜歡的文章,實驗充分,模擬視覺細胞的結構讓我以爲即簡單又巧妙。所以簡單總結下這篇文章。算法
緒論
做者指出目前圖像領域深度學習的發展愈來愈傾向於用更深的網絡以達到更好的效果,然而像ResNet等很深的網絡每每具備較大的計算量,致使速度受限。相比之下做者提出的RFB結構具備如下優勢:網絡
- 模擬了人類視覺系統RFs的大小和離心率設置,加強輕量級CNN網絡的特徵提取能力
- 簡單的替換了SSD的最後一級卷積層,在較少的計算增長的狀況下,提高了模型的性能
- 除了SSD以外,也擴展到了MobileNet中取得了較好的結果,展現告終構的泛化性
相關工做
這部分就不總結了,主要介紹了one stage和two stage的目標檢測模型和目前論文中在感覺野上作的研究。框架
方法
視覺皮層
如上圖所示是人類感覺野(pRF)的示意圖,能夠看到有如下規律:
- 距離中心越遠的pRF越大,即pRF大小與偏愛含有正相關的關係
- 不一樣圖譜的pRF大小規模不一樣
感覺野塊
做者提出的RFB結構的原理如上圖所示,該結構的特色有:
- 多分支卷積層:根據以前人類感覺野(pRF)的示意圖,爲了仿照不一樣圖譜的pRF大小規模不一樣,做者提出用不一樣大小的卷積核以實現多大小的pRF,這一方法應該優於共享固定大小的RFs。這一結構參考了Inception的結構。
- 膨脹卷積和池化層:膨脹卷積的基本意圖在於生成分辨率更高的特徵圖,在相同計算量的狀況下得到更大的感覺野。而膨脹卷積核的大小和擴張與pRFs在視覺皮層的大小和偏愛具備類似的功能關係。而後再將不一樣膨脹卷積處理過的層融合起來,以達到視覺皮層中感覺野的效果。rFB的結構以下圖所示:
RFB檢測框架
做者提出的RFB的結構是在SSD的基礎上改的,作的修改及替換以下圖所示:性能
- 輕量級的結構:這裏主要說的是SSD的有點,這裏不贅述
- 多尺度結構中的RFB:在原始的SSD中,有着層疊的卷積層,造成一系列空間分辨率連續降低、感覺野不斷增大的feature map。在做者的實現中,保持了相同的SSD級聯結構,但具備較大感覺也的卷積層被RFB結構替代。做者還指出最後基層卷積層的特徵圖過小,適合用5X5大小的卷積核。這部分論文裏Fig.4的a圖中用的確實是5x5的卷積核,可是給出的代碼中卻用兩個3x3的卷積核替代了,這部分我有點疑惑。
實驗
這一部分就是各類各樣的實驗圖表了,也不贅述。從如下圖表能夠看到實驗結果確實很驚豔,用了RFB結構的網絡mAP會有不小的提高。學習
做者還給出了一張目前目標檢測算法的準確率和耗時的圖片,對比的可能是one stage的模型,能夠做爲參考ui