反向傳播算法 — Backpropagation

時間 2020-12-30

原文原文鏈接

首先，我們以一個雙層神經網絡爲例展示神經網絡關於數據標籤的計算過程（即前向傳播）。

其中， Wl 和 bl 分別表示第 l 層神經元的權重參數和偏置項， sl=WlTal−1+bl 。 gl 表示第 l 層神經元的激活函數，不同層可以選取不同的函數作爲激活函數。 al 表示第 l 層神經元的輸出。本例最終的輸出 a2 即是該神經網絡針對數據集 X 計算得到的預測值 ŷ 。

我們可以構建出本神經網絡的成本函數 J(ŷ ) 。一個常見的方式是採用最小二乘法，使得殘差最小化：

J (y ̂) = 1 m \sum i = 1 m (y i - y ̂ i) 2 = 1 m (Y - Y ̂) T (Y - Y ̂)

我們以上圖爲例，將每層神經元的計算過程以數學公式表示：

{s 1 = W 1 a 0 + b 1 a 1 = g 1 (s 1) {s 2 = W 2 a 1 + b 2 a 2 = g 2 (s 2)

然後，我們來擴展成本函數 J(ŷ ) ：

J (y ̂) = J (a 2) = J [g 2 (s 2)] = J [g 2 (W 2 a 1 + b 2)] = J {g 2 [W 2 g 1 (W 1 a 0 + b 1) + b 2]} = J {g 2 [W 2 g 1 (W 1 X + b 1) + b 2]}

爲易於觀察，對於不同函數 J,g2,g1 ，上式採用了不同的括號。上式即嵌套的函數： J(ŷ )=J(g2(g1(X))) 。因此，使得成本函數 J(ŷ ) 最小化，我們可以使用梯度下降法得到此例中的自變量 W1,W2,b1 和 b2 ：

{W 2 = W 2 - α ▽ J (W 2) b 2 = b 2 - α ▽ J (b 2) {W 1 = W 1 - α ▽ J (W 1) b 1 = b 1 - α ▽ J (b 1)

通用的更新公式爲：

W l = W l - α ▽ J (W l) b l = b l - α ▽ J (b l)

上式便是神經網絡的反向傳播算法，即其學習策略。下面我將繼續以文章開始處的例子詳細解釋反向傳播算法。

其中， dWl 和 dbl 分別表示成本函數 J 對於 Wl 和 bl 的偏導數， ds1 亦是如此。我們可以先計算一下 W2 和 b2 的更新公式（因爲它們離成本函數最近，偏導的計算量最小）：

{W 2 = W 2 - α ▽ J (W 2) b 2 = b 2 - α ▽ J (b 2)

其中， ▽J(W2)=∂J∂W2=dW2 ， ▽J(b2)=∂J∂b2=db2 。

d a 2 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ d a 21 d a 22 ⋮ d a 2 l 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial J \partial a 21 \partial J \partial a 22 ⋮ \partial J \partial a 2 l 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ - 2 m (y 1 i - a 2 1 i) - 2 m (y 2 i - a 2 2 i) ⋮ - 2 m (y l 2 i - a 2 l 2 i) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

其中， l2 表示神經網絡第2層的神經元數目， J=1m∑i=1m(yi−ŷ i)2 。

d s 2 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ d s 21 d s 22 ⋮ d s 2 l 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ d a 21 g 2' (s 21) d a 22 g 2' (s 22) ⋮ d a 2 l 2 g 2' (s 2 l 2) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ g 2' (s 21) 0 ⋮ 0 0 g 2' (s 22) 0 \dots \dots \dots 00 g 2' (s 2 l 2) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ d a 21 d a 22 ⋮ d a 2 l 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ g 2' (s 21) 0 ⋮ 0 0 g 2' (s 22) 0 \dots \dots \dots 00 g 2' (s 2 l 2) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ d a 2

然後，求 dW2 和 db2 ：

d W 2 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ d w 211 d w 221 ⋮ d w 2 l 2 1 d w 212 d w 222 d w 2 l 2 2 \dots \dots \dots d w 2 1 l 1 d w 2 2 l 1 d w 2 l 2 l 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ d s 21 a 11 d s 22 a 11 ⋮ d s 2 l 2 a 11 d s 21 a 12 d s 22 a 12 d s 2 l 2 a 12 \dots \dots \dots d s 21 a 1 l 1 d s 22 a 1 l 1 d s 2 l 2 a 1 l 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ d s 21 d s 22 ⋮ d s 2 l 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ [a 11 a 12 \dots a 1 l 1] = d s 2 a 1 T

d b 2 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ d b 21 d b 22 ⋮ d b 2 l 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ d s 21 d s 22 ⋮ d s 2 l 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = d s 2

對於 W1 和 b1 的更新公式：

{W 1 = W 1 - α ▽ J (W 1) b 1 = b 1 - α ▽ J (b 1)

其中， ▽J(W1)=ds1a0T ， ▽J(b1)=ds1 （推導過程同上）。其中：

d s 1 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ g 1' (s 11) 0 ⋮ 0 0 g 1' (s 12) 0 \dots \dots \dots 00 g 1' (s 1 l 1) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ d a 1

d a 1 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ d a 11 d a 12 ⋮ d a 1 l 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ d s 2 T [w 211 w 221 \dots w 2 l 2 1] T d s 2 T [w 212 w 222 \dots w 2 l 2 2] T ⋮ d s 2 T [w 2 1 l 1 w 2 2 l 1 \dots w 2 l 2 l 1] T ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = W 2 T d s 2

因此，根據鏈式規則可得更爲通用的公式：

d s l = g l' (s l) W l + 1 T d s l + 1 d s l a s t = g l a s t' (s l a s t) \partial J \partial a l a s t

最後，我將本例的前向傳播和反向傳播的圖示結合起來，並給出完整的反向傳播更新公式。

{W l = W l - α ▽ J (W l) = W l - α d s l a l - 1 T b l = b l - α ▽ J (b l) = b l - α d s l {b l - α d s l {d s l = g l' (s l) W l + 1 T d s l + 1 d d s l + 1 d s l a s t = g l a s t' (s l a s t) \partial J \partial a l a s t l a s t =

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。