Squeeze Excitation Module 對網絡的改進分析

時間 2019-11-09

標籤 squeeze excitation module 網絡改進分析欄目系統網絡简体版

原文原文鏈接

　　Squeeze-and-Excitation Networks服務器

　　SE-net 來自於Momenta 孫剛團隊網絡

　　SE的設計思路：ide

　　　　從卷積操做的實際做用來考慮，conv 把局部空間信息和通道信息組合起來，組合以後造成FM上的值，以前大部分都是空間上作的。函數

　　　　對channel考慮的少，可是卷積自己就能夠學到通道之間的組織信息，爲何還要在從新學一遍呢？性能

　　　　那思考densenet顯式鏈接各層，resnet能夠連到，DN爲什麼要再連一次？學習

　　　　咱們指望特徵學習能力，可是須要顯式建模來幫助學習測試

　　1 SE-net的靈感google

　　VGG 網絡將 Alexnet 7*7 和 5*5 替換成了3*3 的卷積核spa

　　Wide Resnet以下右：設計

　　除此以外，GoogleNet 內部inxeption 實際使用的是一個多尺度的結構。

　　googlenet 是將卷積在空間維度上進行組合

　　ResNeXt 是將左邊的分支結構極端化，在不一樣的通道上進行group conversation，最後concat

　　咱們但願conv filter 能夠在local receptive fields的基礎上融合 channel-wise 和 spatial 的信息做融合。

　　下圖左邊inception將卷積核在空間上進行了組合，右圖inside-outsideNetwork 將不一樣方向的卷積在空間上組合到了一塊兒

　　2 Squeeze-and-Excitation Networks

　　網絡是否能夠在通道關係方面作加強呢？

　　動機：

　　對於通道內部依賴作了顯示的建模，選擇強化有用的特徵，抑制無用的特徵

　　SE module 結構：

　　Ftr：X到U的卷積過程，可是通道之間的關係並無發生變化：

　　Fsq：將每一個通道作了一個squeeze操做，將每一個通道表示成了一個標量，獲得per channel的描述

　　Fex：將per channel標量進行「激活」，能夠理解爲算出了per channel的W

　　最後將per channel的W乘回到原來的feature map上獲得加權後的channel，將channel 作了恰當的融合

　　SE-Module 能夠用於網絡的任意階段

　　squeeze 操做保證了，在網絡的早期感覺野就能夠大到全圖的範圍。

　　SE-inception Module and SE-ResNet Module:

　　下圖左邊將Inception Module 轉化成SE 模塊，在此操做中使用squeeze操做是Global polling 操做，也可使用Global conv 操做，可是考慮到feature map 比較大的時候，G C 的W 也會比較大，因此選擇用pooling，一種max 一種average plooing

　　最終選擇的是average pooling，主要的考慮是，若是作檢測任務，輸入FM 大小是變化的，average 基本能夠保持能量。若是用max FM 越大，能量不能保持，好比小的FM 求max 和大的 FM 求 max 在測試時候並不等價。因此選擇average pooling。獲得1*1*c的向量。

　　後面能夠接FC，可是爲了減小參數，作了降維操做，增長了一個降維的係數r，輸出 1*1*C/r

　　後接RELU，後面在作一個升維操做，獲得1*1*C

　　最終使用S函數進行激活。

　　能夠看到參數量主要取決與FC，在實驗時r通常取16，經驗值！

　　右圖中，是resnet module，改造和inception分支很相似。

　　Architectures:

　　fc[16,256]表示,r 降維繫數是16，會先降到16，而後升到256

　　在SE-ResNeXt-50中（32*4d）中，將3*3卷積變成了group卷積，c取32

　　模型cost分析：

　　1 ，參數量

　　2 ，運算速度

　　參數量主要來自於在block內部增長的FC，會增長3%-10%的參數量，通常是10%，可是在某些狀況下，網絡在靠近輸出的狀況下