maxpooling主要有兩大做用
1. invariance(不變性),這種不變性包括translation(平移),rotation(旋轉),scale(尺度)
2. 保留主要的特徵同時減小參數(降維,效果相似PCA)和計算量,防止過擬合,提升模型泛化能力
(1) translation invariance:
這裏舉一個直觀的例子(數字識別),假設有一個16x16的圖片,裏面有個數字1,咱們須要識別出來,這個數字1可能寫的偏左一點(圖1),這個數字1可能偏右一點(圖2),圖1到圖2至關於向右平移了一個單位,可是圖1和圖2通過max pooling以後它們都變成了相同的8x8特徵矩陣,主要的特徵咱們捕獲到了,同時又將問題的規模從16x16降到了8x8,並且具備平移不變性的特色。圖中的a(或b)表示,在原始圖片中的這些a(或b)位置,最終都會映射到相同的位置。
(2) rotation invariance:
下圖表示漢字「一」的識別,第一張相對於x軸有傾斜角,第二張是平行於x軸,兩張圖片至關於作了旋轉,通過屢次max pooling後具備相同的特徵
(3) scale invariance:
下圖表示數字「0」的識別,第一張的「0」比較大,第二張的「0」進行了較小,至關於做了縮放,一樣地,通過屢次max pooling後具備相同的特徵