【論文筆記】Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition

時間 2020-06-24

標籤論文筆記 pyramidal convolution rethinking convolutional neural networks visual recognition 简体版

原文原文鏈接

目前的卷積神經網絡廣泛使用3×3的卷積神經網絡，經過堆疊3×3的卷積核和下采樣層，會在減小圖像的大小的同時增長感覺野，使用小尺度的卷積核存在兩個問題：網絡

大致來講就是不一樣對象在不一樣場景中可能出現各類各樣的大小，或者在同一場景中，相同對象也可能出現不一樣的大小，使用傳統的3×3卷積就不可以學習到這種多樣性。架構

主要貢獻：提出了金字塔卷積，可以捕獲不一樣層級的細節信息，該網絡是有效的，與標準的卷積相比只增長了少許的參數量和計算量，並將該網絡擴展到了圖像分類、場景識別、語義分割、目標檢測、視頻分類中。性能

直接看金字塔卷積，很直觀的就是在空間維度上，卷積核大小從上至下依次減小，在通道維度上，卷積核的數量（通道的數目）依次增長，最後這些特徵圖拼接起來。學習

這裏要提一下參數量parameters和浮點數計算量FLOPs的計算公式：spa

$K_{1}$表示的是卷積核的大小，$FM_{i}$表示輸入特徵圖的通道數，$FM_{o} $表示輸出的通道數，W、H表示輸出特徵圖的寬和高。3d

另外一個就是組卷積：視頻

將特徵按通道進行分組，而後分別進行卷積操做。對象

上述分別說明了每個層的卷積操做所帶來的參數量和浮點數計算量。

另外還強調了，爲了簡便創造出不一樣的金字塔卷積的網絡，每層的金字塔卷積輸入的特徵圖數目、每層的金字塔的分組通道數、每層的金字塔卷積的輸出特徵圖數目最好是2的冪。

金字塔卷積網絡應用在圖像分類中？

瓶頸金字塔殘差塊：

所提出的網絡結構：

須要注意的是該網絡與原始的殘差網絡相比，去掉了最初的max pooling。也就是說如今4組卷積塊都是在第一個block是進行下采樣的。具體緣由仍是直接看英文比較好：

其他的任務就不仔細看了，知道大致架構差很少了。

金字塔卷積網絡應用在語義分割中？

金字塔卷積網絡應用在目標檢測中？

部分結果：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。