【論文閱讀】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classifica

轉載請註明出處:https://www.cnblogs.com/White-xzx/git

原文地址:https://arxiv.org/abs/1702.05891github

Caffe-code:https://github.com/zhufengx/SRN_multilabel網絡

若有不許確或錯誤的地方,歡迎交流~ide

  

  空間正則化網絡(Spatial Regularization Network, SRN),學習全部標籤間的注意力圖(attention maps),並經過可學習卷積挖掘標籤間的潛在關係,結合正則化分類結果和 ResNet-101 網絡的分類結果,以提升圖像分類表現。學習

【SRN的優點】編碼

  (1)挖掘圖像多標籤之間的語義和空間關聯性,較大地提升精度;spa

  (2)當網絡模型對具備空間相關標籤的圖片訓練後,注意力機制自適應地關注圖像的相關區域code

  (3)圖像級標註,端到端訓練blog

    

【SRN網絡結構】圖片

  (1)Main Net:ResNet-101,針對各標籤分別學習獲得獨立的分類器。「Res-2048」 表示具備2048輸出的 ResNet 網絡模塊;

  (2)SRN 採用ResNet-101的視覺特徵做爲輸入,利用注意力機制學習獲得標籤間的正則空間關係;

  (3)結合主網絡和SRN的分類結果獲得最終的分類置信度;

  【Main Net】

  

  【SRN:注意力機制 fatt(·)】

   當圖像存在某個標籤時,更多的注意力應該放在相關的區域,標籤注意力圖編碼了標籤對應的豐富空間信息。l被標記則l相關區域的注意力值應該更高

   

  

   注意力圖能用於產生更魯棒的空間正則信息,但每一個標籤的注意力圖老是和爲1,可能會突出錯誤位置,形成錯誤的空間正則信息,論文提出使用加權注意力圖U,U解碼了標籤局部和全局的置信分數(confidence)。

  

  【SRN:fsr(·)結構】

  conv二、conv3多通道,512輸出,捕捉多標籤的語義關係;

  conv4單通道,2048輸出,4個kernel爲一組纏繞1個相同的特徵通道,不一樣kernel捕捉語義關聯標籤間的不一樣空間關係。

  

【Multiple Steps 分步訓練】

  

  分四個階段: ①只訓練主網絡, 基於 ResNet,pretrained on ImageNet,fcnn 和 fcls;

        ②固定 fcnn 和 fcls, 訓練 fatt;

        ③固定 fcnn, fcls和 fatt,訓練 fsr;

        ④聯合訓練整個網絡。

  圖像加強策略: ①resize爲256×256

          ②裁剪4個角和中心區域,長寬在{256,224,192,168,128}中隨機選取

          ③resize爲224×224

【實驗結果】

  

  

 

 

 

 

 

 

相關文章
相關標籤/搜索