反向傳播算法簡介

時間 2019-11-08

原文原文鏈接

<!doctype html>

反向傳播算法

css

反向傳播算法簡介（BP）

原文地址：http://neuralnetworksanddeeplearning.com/chap2.htmlhtml

BP (Backpropagation algorithm) 算法所關注的是神經網絡中損失函數 C (cost function) 與每個權重和偏置的偏導。BP 不只僅是一個快速的算法，其同時爲咱們提供了一個視角，讓咱們觀察權值和偏置是如何影響網絡輸出的。node

譯者注：本文中所描述的網絡以層爲單位，若是把層當作圖的節點，數據流向做爲圖的有向邊，那麼本文所描述的網絡所抽象出的圖必定是有向無環的。本文並無翻譯原文全部內容。web

反向傳播算法簡介（BP）1. 熱身：利用矩陣實現網絡計算2. 損失函數的兩個特色3. Hadamard 積，4. BP 算法所依賴的四個方程4.1 BP1：輸出層損失值計算4.2 BP2：使用計算 4.3 BP3：偏置值對網絡損失值的影響4.4 BP4：權值對網絡損失值的影響算法

1. 熱身：利用矩陣實現網絡計算

先介紹一種網絡權重的數學標記法：，這個數學標記表示神經網絡中第層的第個元素和第層第個元素之間的權重。一樣，表示網絡第層第個元素的偏置值，表示層第個元素的激活函數輸出值。利用這種數學標記法，能夠表示爲：canvas

其中爲神經元的激活函數，使用矩陣形式表示上述表達式：windows

定義爲神經元激活函數的輸入值則能夠將上面表達式表示爲：網絡

2. 損失函數的兩個特色

BP 算法用於計算網絡中全部權重和偏置關於損失函數的偏導數和。爲了使 BP 算法正常運行，損失函數須要知足兩個條件。在給出這兩個條件前，咱們先介紹一種經常使用的均方差損失函數，如式所示：app

表達式中變量分別爲：是訓練網絡的樣本個數；是訓練樣本的指望值（也就是樣本的標籤值）；表示網絡的層數；是網絡在輸入爲時輸出層的輸出。less

如今描述咱們對損失函數的要求。首先，損失函數能夠寫成全部訓練樣本損失值均值的形式：。

咱們作上面的要求是由於訓練的過程當中咱們經常使用批訓練的方式，而不是每次只使用一個樣本訓練網絡。批訓練以後咱們求當前批次樣本損失值的平均數來更新權重和偏置，因此損失函數要知足疊加定理。

其次，損失函數可使用網絡輸出層的輸出做爲參數：，是網絡輸出層的輸出，若是不知足這個要求咱們將不能定量分析網絡的性能（由於沒法計算網絡的損失值）。以均方差損失函數爲例，當樣本爲時，網絡的損失值爲：

上式中全部元素的值都是已知的，是標籤、是網絡輸出層的輸出。

3. Hadamard 積，

Hadamardd 積（哈達瑪積）表示矩陣按對應元素作乘法：，例如：

4. BP 算法所依賴的四個方程

BP 算法用於計算網絡中權值與偏置關於網絡損失值的偏導，也就是計算：和。在計算偏導前咱們先引入一箇中間變量，這個變量表示網絡第層第個元素的輸入值（）對整個網絡損失的影響。BP 算法能夠幫咱們計算出，而後咱們就能夠經過獲得和。

爲了便於理解，這裏咱們假設網絡中的某個神經元（第層第個）旁邊住着一個小惡魔，它能夠幫咱們調整神經元的輸入（）。小惡魔不出手時這個神經元的輸入爲：，小惡魔出手後，當前神經元的輸入爲：，其中是小惡魔作的調整，此時這個神經元的輸出爲。小惡魔對當前神經元的調整最終將影響整個網絡的輸出，小惡魔出手後對整個網絡損失值的影響爲：。