【論文閱讀】HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis

轉載請註明出處:https://www.cnblogs.com/White-xzx/git

原文地址:https://arxiv.org/abs/1709.09930github

Github: https://github.com/xh-liu/HydraPlus-Net網絡

若有不許確或錯誤的地方,歡迎交流~框架

 

  HP-Net是一個基於注意力機制(attention-based)的深度神經網絡,將多層注意力機制圖多向映射到不一樣的特徵層。函數

【HP-Net Adavantage】學習

  (1)模型可以從淺層到語義層捕獲注意力;spa

  (2)挖掘多尺度的可選注意力特徵,充實最終的行人特徵表示;3d

  (3)提取出細節和局部特徵來充實高層全局特徵,這些特徵在細粒度的行人分析任務中是很是重要的;blog

  (4)提出多方向注意機制模塊(multi-directional attention,MDA),提取多層(multiple level)特徵,包含局部和全局特徵,進行多層特徵融合,進行細粒度的行人分析;ip

   

   multi-level: (a)語義層:分辨類似外觀行人的局部區域特徵,如長短髮、長短袖; (b)淺層:捕捉行人的衣服的條紋;

      multi-scale: (c)(d)多尺度特徵,描述行人特色 (c)小尺度特徵對應‘打電話’; (d)大尺度全局理解描述‘性別’

【HydraPlus-Net網絡結構】

  (1)Main Net(M-Net):單純的CNN結構,論文的實現是基於inception_v2,包含三個inception block,還包含幾個低層卷積層

  (2)Attentive Feature Net(AF-Net):三個分支,每一個分支有三個inception_v2 block和一個MDA

  

【Attentive Feature Network】

  AF-Net包含3個MDA加強的網絡分支,

  AF-Net和M-Net共享卷積框架,他們的輸出級聯後通過全局平均池化和全鏈接層融合,最終的輸出映射到屬性logits用於屬性識別,或特徵向量用於再認證。

   

  爲inception i模塊的輸出通過1 1conv、BN、ReLU產生的注意力圖,並被相乘到inception k的輸出特徵圖,產生多層多尺度注意力特徵,傳送到後續的層,MDA模塊的最後L個注意力特徵級聯做爲最終特徵表示,k∈{1,2,3}

【Attention Mechanism 注意力機制】

  傳統基於注意力的模型,將注意力圖返回輸入到原相同的模塊(右圖紅線),經過應用注意力圖到相鄰的模塊來擴展此機制;HP-Net應用不一樣的注意力圖到多個模塊(下圖b),在相同的空間分佈下融合多層特徵。

   

【Multi-level Attention Map 多層注意力圖】

  不一樣模塊學習獲得注意力圖在尺度和細節上差別很是大,以下圖(a),高層一般更粗糙、更聚焦語義區域(特定物體),如,低層捕獲局部特徵和細節(邊緣和紋理),如 。所以,使用MDA模塊融合不一樣層注意力特徵,能夠收集不一樣層的語義信息,提供更多可選特徵表達。

    

  上圖爲每一個輸入圖像提取某level的L = 8 attention channels 的特徵圖,不一樣MDA做用下,多級注意力特徵的定性演示

  

  (a)淺層屬性,如上衣類型,須要低層注意力鏈接,紋理 -> T-Shirt (b)語義或目標級別的屬性,如手機,須要高層注意力鏈接

【Stage-wise Training 分階段訓練】

  ①訓練M-Net,提取基本特徵;

  ②將M-Net複製三次,獲得AF-Net的三個分支,每一個MDA模塊有三個子分支組成,即臨近的三個不一樣的inception blocks,依次微調每一個blocks,即共有9個blocks須要微調;

  ③微調完成後,固定AF-Net和M-Net,訓練全局平均池化層(GAP)和全鏈接層(FC);

  ④輸出層:屬性識別使用交叉熵損失函數,行人ReID使用softmax函數。

【實驗結果】

  

  

相關文章
相關標籤/搜索