空間變換網絡

時間 2019-12-10

標籤空間變換網絡欄目系統網絡简体版

原文原文鏈接

轉自https://www.cnblogs.com/liaohuiqiang/p/9226335.htmlhtml

2015, NIPS
Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu
Google DeepMind網絡

爲何提出（Why）優化

一個理想中的模型：咱們但願魯棒的圖像處理模型具備空間不變性，當目標發生某種轉化後，模型依然能給出一樣的正確的結果
什麼是空間不變性：舉例來講，以下圖所示，假設一個模型能準確把左圖中的人物分類爲涼宮春日，當這個目標作了放大、旋轉、平移後，模型仍然可以正確分類，咱們就說這個模型在這個任務上具備尺度不變性，旋轉不變性，平移不變性
CNN在這方面的能力是不足的：maxpooling的機制給了CNN一點點這樣的能力，當目標在池化單元內任意變換的話，激活的值多是相同的，這就帶來了一點點的不變性。可是池化單元通常都很小（通常是2*2），只有在深層的時候特徵被處理成很小的feature map的時候這種狀況纔會發生
Spatial Transformer：本文提出的空間變換網絡STN（Spatial Transformer Networks）可使得模型具備空間不變性。

STN是什麼（What）ui

STN對feature map（包括輸入圖像）進行空間變換，輸出一張新的圖像。
咱們但願STN對feature map進行變換後能把圖像糾正到成理想的圖像，而後丟進NN去識別，舉例來講，以下圖所示，輸入模型的圖像多是擺着各類姿式，擺在不一樣位置的涼宮春日，咱們但願STN把它糾正到圖像的正中央，放大，佔滿整個屏幕，而後再丟進CNN去識別。
這個網絡能夠做爲單獨的模塊，能夠在CNN的任何地方插入，因此STN的輸入不止是輸入圖像，能夠是CNN中間層的feature map

STN是怎麼作的（How）atom

以下圖所示，STN的輸入爲U，輸出爲V，由於輸入多是中間層的feature map，因此畫成了立方體（多channel），STN主要分爲下述三個步驟
Localisation net：是一個本身定義的網絡，它輸入U，輸出變化參數 $Θ$
Grid generator：根據V中的座標點和變化參數 $Θ$
Sampler：要作的是填充V，根據Grid generator獲得的一系列座標和原圖U（由於像素值要從U中取）來填充，由於計算出來的座標可能爲小數，要用另外的方法來填充，好比雙線性插值。

下面針對每一個模塊闡述一下
(1) Localisation net
這個模塊就是輸入U，輸出一個變化參數 $Θ$ spa

若是想旋轉圖像中的目標，能夠這麼運算（能夠在極座標系中推出來，證實放到最後的附錄）
$[\begin{matrix} x^{^{'}} \\ y^{^{'}} \end{matrix}] = [\begin{matrix} c o s Θ & - s i n Θ \\ s i n Θ & c o s Θ \end{matrix}] [\begin{matrix} x \\ y \end{matrix}] + [\begin{matrix} 0 \\ 0 \end{matrix}]$ 3d

這些都是屬於仿射變換（affine transformation）
$[\begin{matrix} x^{^{'}} \\ y^{^{'}} \end{matrix}] = [\begin{matrix} a & b \\ c & d \end{matrix}] [\begin{matrix} x \\ y \end{matrix}] + [\begin{matrix} e \\ f \end{matrix}]$ orm

(2) Grid generator
有了第一步的變化參數，這一步是作個矩陣運算，這個運算是以目標圖V的全部座標點爲自變量，以 $Θ$ xml

(x s i y s i) = Θ ⎛⎝⎜ x t i y t

其中 $(x_{i}^{t}, y_{i}^{t})$ htm

(3) Sampler
因爲在第二步計算出了V中每一個點對應到U的座標點，在這一步就能夠直接根據V的座標點取得對應到U中座標點的像素值來進行填充，而不須要通過矩陣運算。須要注意的是，填充並非直接填充，首先計算出來的座標多是小數，要處理一下，其次填充的時候每每要考慮周圍的其它像素值。填充根據的公式以下。

V i = \sum n \sum m U n m * k (x s i - m; ϕ x) * k (y s i

其中n和m會遍歷原圖U的全部座標點， $U_{n m}$

V i = \sum n \sum m U n m * m a x (0, 1 - | x s i - m |) * m a

舉例來講，我要填充目標圖V中的（2，2）這個點的像素值，通過如下計算獲得（1.6，2.4）

(x s i y s i) = [Θ 11 Θ 21 Θ

(1.6 2.4) = [0 1 0.5 0 0.6 0.4] ⎛⎝⎜ 2 2 1 ⎞⎠⎟

$U_{n m}$

若是採用上面雙線性插值的公式來填充，在這個例子裏就會考慮（2，2）周圍的四個點來填充，這樣子，當 $Θ$

V = U 21 (1 - 0.6) (1 - 0.4) + U 22 (1 - 0.4) (1 - 0.4) + U 31 (1 - 0.6) (1 -

(4) STN小結
簡單總結一下，以下圖所示

Localization net根據輸入圖，計算獲得一個 $Θ$
Grid generator根據輸出圖的座標點和 $Θ$
Sampler根據本身定義的填充規則（通常用雙線性插值）來填充，好比（2，2）座標對應到輸入圖上的座標爲（1.6，2.4），那麼就要根據輸入圖上（1.6，2.4）周圍的四個座標點（1，2），（1，3），（2，2），（2，3）的像素值來填充。