CVPR 2019|PoolNet:基於池化技術的顯著性檢測 論文解讀


做者 | 文永亮
研究方向 | 目標檢測、GANgit

研究動機

​ 這是一篇發表於CVPR2019的關於顯著性目標檢測的paper,在U型結構的特徵網絡中,高層富含語義特徵捕獲的位置信息在自底向上的傳播過程當中可能會逐漸被稀釋,另外卷積神經網絡的感覺野大小與深度是不成正比的,目前不少流行方法都是引入Attention(注意力機制),可是本文是基於U型結構的特徵網絡研究池化對顯著性檢測的改進,具體步驟是引入了兩個模塊GGM(Global Guidance Module,全局引導模塊)FAM(Feature Aggregation Module,特徵整合模塊),進而銳化顯著物體細節,而且檢測速度可以達到30FPS。由於這兩個模塊都是基於池化作的改進因此做者稱其爲PoolNet,而且放出了源碼:https://github.com/backseason/PoolNetgithub

模型架構

兩個模塊:

  • GGM(Global Guidance Module,全局引導模塊)
    ​ 咱們知道高層語義特徵對挖掘顯著對象的詳細位置是頗有幫助的,可是中低層的語義特徵也能夠提供必要的細節。由於在top-down的過程當中,高層語義信息被稀釋,並且實際上的感覺野也是小於理論感覺野,因此對於全局信息的捕捉十分的缺少,致使顯著物體被背景吞噬,因此提出了GGM模塊,GGM實際上是PPM(Pyramid Pooling module,金字塔池化模塊)的改進而且加上了一系列的GGFs(Global Guiding Flows,全局引導流),這樣作的好處是,在特徵圖上的每層都能關注到顯著物體,另外不一樣的是,GGM是一個獨立的模塊,而PPM是在U型架構中,在基礎網絡(backbone)中參與引導全局信息的過程。網絡

    ​ 其實這部分論文說得並非很清晰,沒有說GGM的詳細結構,咱們能夠知道PPM[7]的結構以下:
    架構


    ​ 該PPM模塊融合了4種不一樣金字塔尺度的特徵,第一行紅色是最粗糙的特徵–全局池化生成單個bin輸出,後面三行是不一樣尺度的池化特徵。爲了保證全局特徵的權重,若是金字塔共有N個級別,則在每一個級別後使用1×1的卷積將對於級別通道降爲本來的1/N。再經過雙線性插值得到未池化前的大小,最終concat到一塊兒。

    ​ 若是明白了這個的話,其實GGM就是在PPM的結構上的改進,PPM是對每一個特徵圖都進行了金字塔池化,因此做者說是嵌入在U型結構中的,可是他加入了global guiding flows(GGFs),即Fig1中綠色箭頭,引入了對每級特徵的不一樣程度的上採樣映射(文中稱之爲identity mapping),因此能夠是個獨立的模塊。app

    ​ 簡單地說,做者想要FPN在top-down的路徑上不被稀釋語義特徵,因此在每次橫向鏈接的時候都加入高層的語義信息,這樣作也是一個十分直接主觀的想法啊。
  • FAM(Feature Aggregation Module,特徵整合模塊)
    特徵整合模塊也是使用了池化技巧的模塊,以下圖,先把GGM獲得的高層語義與該級特徵分別上採樣以後橫向鏈接一番獲得FAM的輸入b,以後採起的操做是先把b用{2,4,8}的三種下採樣獲得藍綠紅特徵圖而後avg pool(平均池化)再上採樣回原來尺寸,最後藍綠紅紫(紫色是FAM的輸入b)四個分支像素相加獲得整合後的特徵圖。
    ide


    FAM有如下兩個優勢:

    • 幫助模型下降上採樣(upsample)致使的混疊效應(aliasing)
    • 從不一樣的多角度的尺度上縱觀顯著物體的空間位置,放大整個網絡的感覺野

    ​ 第二點很容易理解,從不一樣角度看,不一樣的放縮尺度看待特徵,可以放大網絡的感覺野。對於第一點下降混疊效應的理解,用明珊師姐說的話,混疊效應就至關於引入雜質,GGFs從基礎網絡最後獲得的特徵圖通過金字塔池化以後須要最高是8倍上採樣才能與前面的特徵圖融合,這樣高倍數的採樣確實容易引入雜質,做者就是由於這樣纔會提出FAM,進行特徵整合,先把特徵用不一樣倍數的下采樣,池化以後,再用不一樣倍數的上採樣,最後疊加在一塊兒。由於單個高倍數上採樣容易致使失真,因此補救措施就是高倍數上採樣以後,再下采樣,再池化上採樣平均下來能夠彌補錯誤
    ui


    ​ 上圖就是爲了說明FAM的優勢的,通過高倍上採樣以後的圖像(b)和(d)容易引入許多雜質,導致邊緣不清晰,可是通過FAM模塊以後的特徵圖就能下降混疊效應

實驗結果

​ 論文在經常使用的6種數據集上作了實驗,有ECSSD [8], PASCALS[9], DUT-OMRON [10], HKU-IS [11], SOD [12] and DUTS [13], 使用二值交叉熵作顯著性檢測,平衡二值交叉熵(balanced binary cross entropy)[14]做爲邊緣檢測(edge detection)。orm

​ 如下是文章方法跟目前state-of-the-arts的方法的對比效果,綠框是GT,紅框是本文效果。能夠看到不管在速度仍是精度上都有很大的優點。
對象




​ 論文還針對三個改進的技術PPM、GGFs和FAMs的不一樣組合作了實驗, (a)是原圖,(b)是Ground truth,(c)是FPN的結果,(d)是FPN+FAMs,(e)是FPN+PPM,(f)是FPN+GGM(g)FPN+GGM+FAMs

總結

​ 該paper提出了兩種基於池化技術的模塊GGM(全局引導模塊)和FAM(特徵整合模塊),改進FPN在顯著性檢測的應用,並且這兩個模塊也能應用在其餘金字塔模型中,具備廣泛性,可是FAM的整合過程我認爲有點像是用平均中和了上採樣帶來的混疊效應,可是不夠優雅,先下采樣池化再上採樣帶來的損失可能代價太大blog

參考文獻

[1]. Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In CVPR, 2017. 1, 3 [2]. Tiantian Wang, Ali Borji, Lihe Zhang, Pingping Zhang, and Huchuan Lu. A stagewise refinement model for detecting salient objects in images. In ICCV, pages 4019–4028, 2017. 1, 3, 6, 7, 8 [3].Nian Liu and Junwei Han. Dhsnet: Deep hierarchical saliency network for salient object detection. In CVPR, 2016.1, 2, 3, 7, 8 [4]. Qibin Hou, Ming-Ming Cheng, Xiaowei Hu, Ali Borji, Zhuowen Tu, and Philip Torr. Deeply supervised salient object detection with short connections. IEEE TPAMI, 41(4):815–828, 2019. 1, 2, 3, 5, 6, 7, 8 [5]. Tiantian Wang, Ali Borji, Lihe Zhang, Pingping Zhang, and Huchuan Lu. A stagewise refinement model for detecting salient objects in images. In ICCV, pages 4019–4028, 2017. 1, 3, 6, 7, 8 [6]. Tiantian Wang, Lihe Zhang, Shuo Wang, Huchuan Lu, Gang Yang, Xiang Ruan, and Ali Borji. Detect globally, refine locally: A novel approach to saliency detection. In CVPR, pages 3127–3135, 2018. 1, 3, 6, 7, 8 [7]. Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In CVPR, 2017. 1, 3 [8]. Qiong Yan, Li Xu, Jianping Shi, and Jiaya Jia. Hierarchical saliency detection. In CVPR, pages 1155–1162, 2013. 1, 5, 8 [9]. Yin Li, Xiaodi Hou, Christof Koch, James M Rehg, and Alan L Yuille. The secrets of salient object segmentation. In CVPR, pages 280–287, 2014. 5, 7, 8 [10]. Chuan Yang, Lihe Zhang, Huchuan Lu, Xiang Ruan, and Ming-Hsuan Yang. Saliency detection via graph-based manifold ranking. In CVPR, pages 3166–3173, 2013. 5, 6, 7, 8 [11]. Guanbin Li and Yizhou Yu. Visual saliency based on multiscale deep features. In CVPR, pages 5455–5463, 2015. 2, 5, 6, 7, 8 [12]. Vida Movahedi and James H Elder. Design and perceptual validation of performance measures for salient object segmentation. In CVPR, pages 49–56, 2010. 5, 6, 7, 8 [13]. Lijun Wang, Huchuan Lu, Yifan Wang, Mengyang Feng, Dong Wang, Baocai Yin, and Xiang Ruan. Learning to detect salient objects with image-level supervision. In CVPR, pages 136–145, 2017. 5, 7, 8 [14]. Saining Xie and Zhuowen Tu. Holistically-nested edge detection. In ICCV, pages 1395–1403, 2015. 6

相關文章
相關標籤/搜索