轉載請註明出處:https://www.cnblogs.com/White-xzx/git
原文地址:https://arxiv.org/abs/1702.05891github
Caffe-code:https://github.com/zhufengx/SRN_multilabel網絡
若有不許確或錯誤的地方,歡迎交流~ide
空間正則化網絡(Spatial Regularization Network, SRN),學習全部標籤間的注意力圖(attention maps),並經過可學習卷積挖掘標籤間的潛在關係,結合正則化分類結果和 ResNet-101 網絡的分類結果,以提升圖像分類表現。學習
【SRN的優點】編碼
(1)挖掘圖像多標籤之間的語義和空間關聯性,較大地提升精度;spa
(2)當網絡模型對具備空間相關標籤的圖片訓練後,注意力機制自適應地關注圖像的相關區域code
(3)圖像級標註,端到端訓練blog
【SRN網絡結構】圖片
(1)Main Net:ResNet-101,針對各標籤分別學習獲得獨立的分類器。「Res-2048」 表示具備2048輸出的 ResNet 網絡模塊;
(2)SRN 採用ResNet-101的視覺特徵做爲輸入,利用注意力機制學習獲得標籤間的正則空間關係;
(3)結合主網絡和SRN的分類結果獲得最終的分類置信度;
【Main Net】
【SRN:注意力機制 fatt(·)】
當圖像存在某個標籤時,更多的注意力應該放在相關的區域,標籤注意力圖編碼了標籤對應的豐富空間信息。l被標記則l相關區域的注意力值應該更高
注意力圖能用於產生更魯棒的空間正則信息,但每一個標籤的注意力圖老是和爲1,可能會突出錯誤位置,形成錯誤的空間正則信息,論文提出使用加權注意力圖U,U解碼了標籤局部和全局的置信分數(confidence)。
【SRN:fsr(·)結構】
conv二、conv3多通道,512輸出,捕捉多標籤的語義關係;
conv4單通道,2048輸出,4個kernel爲一組纏繞1個相同的特徵通道,不一樣kernel捕捉語義關聯標籤間的不一樣空間關係。
【Multiple Steps 分步訓練】
分四個階段: ①只訓練主網絡, 基於 ResNet,pretrained on ImageNet,fcnn 和 fcls;
②固定 fcnn 和 fcls, 訓練 fatt;
③固定 fcnn, fcls和 fatt,訓練 fsr;
④聯合訓練整個網絡。
圖像加強策略: ①resize爲256×256
②裁剪4個角和中心區域,長寬在{256,224,192,168,128}中隨機選取
③resize爲224×224
【實驗結果】