文章目錄
摘要
文章的主旨爲擴大池在卷積神經網絡中的做用來解決突出目標檢測的問題;根據此立意,做者提出了一下方法:html
-
在u形結構的基礎上,首先在自底向上的路徑上構建了一個全局引導模塊(GGM),目的是在不一樣的特徵層上提供潛在顯著目標的位置信息;算法
-
進一步設計了一個特徵聚合模塊(FAM),使粗級語義信息與自頂向下路徑的細級特徵很好地融合網絡
網絡概述
以往模型存在的問題:架構
- 在u形結構中,高級語義信息被逐步傳輸到較淺的層次,所以較深層次捕獲的位置信息可能同時被逐漸稀釋;
- CNN的可接受區域大小與它的層深度並不成正比;
做者主要擴大池化層在U-Net中的做用來解決以上問題,下圖爲
首先,此模塊是創建在FPN的基礎上包括一下兩個模塊(關於PFN: FPN) - GGM(藍色部分爲GGM模塊)由金字塔池模塊(PPM)的修改版本和一系列全局引導流(GGFs)組成;GGM是一個獨立的結構,PPM放置在主幹的頂部,以捕獲全球指導信息;經過引入GGF, PPM收集到的高級語義信息能夠被傳遞到全部金字塔級別的特徵地圖上,彌補了u形網絡自上而下信號逐漸被稀釋的缺陷
解決了問題1
。 - 特徵聚合模塊 (FAM:圖中‘A’表示區域):考慮到來自GGFs的粗級特張圖與金字塔不一樣尺度的特徵圖的融合問題,提出了一個特徵聚合模塊 (FAM),它將融合後的特徵圖做爲輸入。首先將融合後的特徵圖轉換爲多個特徵空間,以捕獲不一樣尺度下的局部上下文信息,結合信息來更好地權衡融合輸入特徵圖的組成;
網絡模型分析
在上文中,咱們已經分析過做者的網絡總體模型,下面分析該網絡的兩個組成部分:GGM,FAM
Global Guidance Module
GGM模塊由一個PPM以及一系列GGF組成
性能
- GGM中的PPM由四個子分支組成,用於捕獲輸入圖像的上下文信息。第一個和最後一個子分支分別是標識映射層和全局平均池層。對於中間的兩個子分支,咱們採用自適應平均池化層1,以保證它們的輸出特徵圖空間大小分別爲3×3和5×5。
- GGF:經過引入一系列global guiding flows(全局引導流),能夠很容易地將高級語義信息傳遞到不一樣層次的特徵圖中;
爲了更好地演示咱們的GGM的有效性,咱們展現了一些視覺比較。以下圖所示:
從圖中能夠看出,對於一些複雜的場景,僅使用FPN主幹很難找到顯著目標。也有一些結果,其中只有部分突出對象被檢測。然而,當咱們的GGM被合併後,所獲得的顯著性映射的質量將大大提升;
學習
Feature Aggregation Module
如何使來自GGM的粗級特徵圖與金字塔不一樣尺度的特徵圖無縫融合?
如上圖所示,每一個特徵聚合模塊包含四個子分支;
在前向傳遞中,首先將輸入的特徵圖以不一樣的下采樣率輸入到平均池化層,將其轉換到不一樣的尺度空間。而後未來自不一樣子分支的上採樣特徵圖合併在一塊兒,而後是一個3×3的卷積層,這種方法有一下兩個優勢:
測試
- 有助於模型減小上採樣的混疊效應,特別是當上採樣率很大時。
- 此外,它容許每一個空間位置以不一樣的尺度查看局部環境,進一步擴大整個網絡的感覺場。
爲了證實FAM的有效性,有如下對比圖:
能夠很容易地發現屢次引入FAM可讓咱們的網絡更好地銳化突出物體的細節。觀察圖2第二行,這種現象尤其明顯。上述討論驗證了咱們的算法在不一樣尺度下更好地融合特徵圖方面的顯著效果。
與邊緣檢測共同訓練
在前邊中描述的體系結構已經在多個流行的顯著對象檢測基準上超過了之前全部的最早進的單模型結果。儘管如此,經過觀察模型產生的顯著性地圖,咱們發現許多不許確(不完整或過分預測)的預測是因爲不清楚的對象邊界形成的。ui
在自頂向下路徑中,在三個特徵層的FAMs後添加三個殘差塊,用於信息轉換。這些殘塊從細級到粗級的通道編號爲{128,256,512}。每一個殘塊後面都有一個16通道3×3卷積層用於特徵壓縮,以及一個通道1×1卷積層用於邊緣預測。做者將這三個16信道的3×3卷積層鏈接起來,饋送到三個連續的48信道的3×3卷積層中,將捕獲的邊緣信息傳輸到顯著的目標檢測分支,進行細節加強。位置以下(圖中R部分):
從下圖(圖5)中能夠看出,與邊緣檢測任務的聯合訓練大大改善了被檢測出的顯著性目標的細節:
spa
實驗結果
燒蝕研究
首先研究了GGM和FAMs的有效性。而後,對GGM和FAM的配置進行了更多的實驗。最後,展現了聯合訓練和邊緣檢測對性能的影響:設計
GGM和FAMs的有效性:爲了驗證所提出的GGM和FAMs的有效性,在vgg16骨幹上進行了基於FPN基線的消融實驗。除了GGM和FAMs的不一樣組合外,全部其餘配置都是相同的。表1顯示了在兩個具備挑戰性的數據集上的性能:DUT-O和SOD:
在圖6中顯示了更多的定性結果:
聯合訓練和邊緣檢測對性能的影響:在表2中,爲了進一步提升咱們方法生成的顯著性圖的質量,咱們嘗試將邊緣檢測與顯著性目標檢測結合起來:
與卓越方法的對比
定量結果如表3所示。咱們把VGG-16和ResNet-50都做爲主幹網絡,並在二者上顯示結果:
表4還顯示了不一樣方法(在相同環境下測試)的平均速度(FPS)比較:
總結
在本文中,做者設計了兩個簡單的基於池化的模塊:全局引導模塊(GGM)和特徵聚合模塊(FAM)來探討池化在顯著目標檢測中的潛力。經過將它們插入到FPN體系結構中,咱們證實了咱們提出的PoolNet能夠在六種普遍使用的顯著目標檢測基準上超越全部之前的先進方法。此外,以端到端學習的方式將咱們的網絡與標準邊緣檢測任務聯合訓練,能夠極大地加強被檢測出的突出目標的細節。做者的模塊獨立於網絡架構,而且能夠靈活地應用於基於金字塔的模型。這些方向也提供了頗有前途的方法來提升顯著性地圖的質量。