深度學習卷積網絡中反捲積/轉置卷積的理解 transposed conv/deconv

時間 2019-11-06

標籤深度學習網絡反捲轉置理解 transposed conv deconv 欄目系統網絡简体版

原文原文鏈接

搞明白了卷積網絡中所謂deconv究竟是個什麼東西后，不寫下來怕又忘記，根據參考資料，加上我本身的理解，記錄在這篇博客裏。git

先來規範表達

爲了方便理解，本文出現的舉例狀況都是2D矩陣卷積，卷積輸入和核形狀都爲正方形，x和y軸方向的padding相同，stride也相同。
記號：
$i, o, k, p, s$ 分別表示：卷積/反捲積的輸入大小 $i n p u t s i z e$ ，卷積/反捲積輸出大小 $o u t p u t s i z e$ ，卷積/反捲積核大小 $k e r n e l s i z e$ ， $p a d d i n g$ ， $s t r i d e$ 。
舉例（以下左圖）：
輸入 $X \in R^{(4, 4)}$ 矩陣，卷積核 $w \in R^{(3, 3)} ， p a d d i n g = 0 ， s t r i d e = 1$ 的狀況下，卷積的輸出 $Y \in R^{(2, 2)}$ ，就記爲 $i = 4, o = 2, k = 3, p = 0, s = 1$ 。

推翻錯誤的理解

第一次看到deconv這個詞，覺得deconv的結果就是卷積的逆，以爲神奇，不由產生了「哦？轉置的卷積就能夠求逆了嗎？」這樣的想法，而後在matlab裏面實驗求證，我還記得當時覺得反捲積可以求逆，考慮到圖片進行常規卷積操做輸出大小又不可能變大（same/valid），因而我還假設反捲積輸出大小不變，用了same padding和原核的轉置做爲反捲積配置，結果發現根本不是那麼一回事好嗎。
其實DL中的deconv，是一種上採樣過程，舉個比方：輸入 $X \in R^{(4, 4)}$ 矩陣，卷積核 $w \in R^{(3, 3)} ， p a d = 0 ， s t r i d e = 1$ 的狀況下（以下左圖），卷積的輸出 $Y \in R^{(2, 2)}$ 。對 $Y$ 進行deconv，它只能作到把還原輸出大小到和 $X$ 同樣大，輸出值和 $X$ 有那麼一點聯繫。
因此啊deconv這個名字至關誤導人吶！這在cs231n課程裏也被吐槽過，你們如今更喜歡用transposed conv來表述反捲積。爲了方便起見，後文就用反捲積這個詞了。github

第二個容易confused的地方，就是不少文章都說卷積核的轉置就能夠求反捲積，又陷入迷茫「就算把卷積核轉置（或者左右翻轉上下翻轉），卷積後輸出仍是愈來愈小（或不變，至少不會增大）啊」……直到看到文獻和相應的這個動畫（其餘動畫在github-convolution arithmetic1）web

$卷積 $\ padding=0,stride=1$$	$反捲積$\ padding=0,stride=1$$
卷積 $i = 4, k = 3, p = 0, s = 1, 则 o = 2$	反捲積 $i = 2, k = 3, p = 0, s = 1, 则 o = 4$

注意圖中藍色（下面）是輸入，綠色（上面）是輸出，卷積和反捲積在 $p 、 s 、 k$ 等參數同樣時，是至關於 $i$ 和 $o$ 調了個位。
這裏說明了反捲積的時候，是有補0的，即便人家管這叫no padding（ $p = 0$ ），這是由於卷積的時候從藍色 $4 \times 4$ 縮小爲綠色 $2 \times 2$ ，因此對應的 $p = 0$ 反捲積應該從藍色 $2 \times 2$ 擴展成綠色 $4 \times 4$ 。並且轉置並非指這個 $3 \times 3$ 的核 $w$ 變爲 $w^{T}$ ，但若是將卷積計算寫成矩陣乘法（在程序中，爲了提升卷積操做的效率，就能夠這麼幹，好比tensorflow中就是這種實現）， $\vec{Y} = C \vec{X}$ （其中 $\vec{Y}$ 表示將 $\vec{Y}$ 拉成一維向量， $\vec{X}$ 同理），那麼反捲積確實能夠表示爲 $C^{T} \vec{Y}$ ，而這樣的矩陣乘法，偏偏等於 $w$ 左右翻轉再上下翻轉後與補0的 $Y$ 卷積的狀況。網絡

而後就產生了第三個confuse：「補0了會不會有影響，還能經過反捲積近似輸入 $X$ 嗎？」其實反捲積也不必定能達到近似的效果，圖像裏的卷積，至關於一種相關操做，而反捲積維持了這種相關操做時的 $w$ 與 $X$ 、與 $Y$ 之間的聯繫維持了。至於補0後操做是否還等價，上一段已經說明了是等價的，讀者能夠在閱讀完後面的文章後本身嘗試一下。app

反捲積以及反向傳播的過程

卷積和反捲積的過程在arXiv-A guide to convolution arithmetic for deep learning2寫的很是詳細，還有不少例子便於理解，在這裏我就截圖出重點來（ps.文中的figure2.1就是上圖的左邊）。剩下的例子請你們多看看原文，最好本身動手算一下，我也貼個我算的過程（ $C_{i}$ 表示矩陣 $C$ 的第 $i$ 行），供參考。
關於反向傳播， 知乎-如何理解深度學習中的deconvolution networks3有詳細的推導過程。

ide

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。