在讀計算機視覺的相關論文時,常常會看到平移不變性這個詞,本文將介紹卷積神經網絡中的平移不變性是什麼,以及爲何具備平移不變性。網絡
不變性意味着即便目標的外觀發生了某種變化,可是你依然能夠把它識別出來。ui
這對圖像分類來講是一種很好的特性,由於咱們但願圖像中目標不管是被平移,被旋轉,仍是被縮放,甚至是不一樣的光照條件、視角,均可以被成功地識別出來。3d
因此上面的描述就對應着各類不變性:blog
在歐幾里得幾何中,平移是一種幾何變換,表示把一幅圖像或一個空間中的每個點在相同方向移動相同距離。好比對圖像分類任務來講,圖像中的目標無論被移動到圖片的哪一個位置,獲得的結果(標籤)應該是相同的,這就是卷積神經網絡中的平移不變性。圖片
平移不變性意味着系統產生徹底相同的響應(輸出),無論它的輸入是如何平移的 。io
平移同變性(translation equivariance)意味着系統在不一樣位置的工做原理相同,但它的響應隨着目標位置的變化而變化 。好比,實例分割任務,就須要平移同變性,目標若是被平移了,那麼輸出的實例掩碼也應該相應地變化。原理
最近看的FCIS這篇文章中提到,一個像素在某一個實例中多是前景,可是在相鄰的一個實例中可能就是背景了,也就是說,同一個像素在不一樣的相對位置,具備不一樣的語義,對應着不一樣的響應,這說的也是平移同變性。神經網絡
簡單地說,卷積+最大池化約等於平移不變性。im
卷積:簡單地說,圖像通過平移,相應的特徵圖上的表達也是平移的。d3
下圖只是一個爲了說明這個問題的例子。輸入圖像的左下角有一我的臉,通過卷積,人臉的特徵(眼睛,鼻子)也位於特徵圖的左下角。
假如人臉特徵在圖像的左上角,那麼卷積後對應的特徵也在特徵圖的左上角。
在神經網絡中,卷積被定義爲不一樣位置的特徵檢測器,也就意味着,不管目標出如今圖像中的哪一個位置,它都會檢測到一樣的這些特徵,輸出一樣的響應。好比人臉被移動到了圖像左下角,卷積核直到移動到左下角的位置纔會檢測到它的特徵。
池化:好比最大池化,它返回感覺野中的最大值,若是最大值被移動了,可是仍然在這個感覺野中,那麼池化層也仍然會輸出相同的最大值。這就有點平移不變的意思了。
因此這兩種操做共同提供了一些平移不變性,即便圖像被平移,卷積保證仍然能檢測到它的特徵,池化則儘量地保持一致的表達。