http://www.cnblogs.com/python27/p/MachineLearningWeek05.htm

這一章多是Andrew Ng講得最不清楚的一章，爲何這麼說呢？這一章主要講後向傳播(Backpropagration, BP)算法，Ng花了一大半的時間在講如何計算偏差項html

簡單神經網絡的後向傳播（Backpropagration, BP）算法

1. 回顧以前的前向傳播(ForwardPropagration, FP)算法

FP算法仍是很簡單的，說白了就是根據前一層神經元的值，先加權而後取sigmoid函數獲得後一層神經元的值，寫成數學的形式就是:python

a (1) = X

z (2) = Θ (1) a (1)

a (2) = g (z (2))

z (3) = Θ (2) a (2)

a (3) = g (z (3))

z (4) = Θ (3) a (3)

a (4) = g (z (4))

2. 回顧神經網絡的代價函數(不含regularization項)

web

3. 一個簡單神經網絡的BP推導過程

BP算法解決了什麼問題？咱們已經有了代價函數算法

下面咱們從一個簡單的例子入手考慮如何從數學上計算代價函數的梯度，考慮以下簡單的神經網絡（爲方便起見，途中已經給出了前向傳播（FP）的計算過程），該神經網絡有三層神經元，對應的有兩個權重矩陣網絡

首先咱們先計算第2個權重矩陣的偏導數，即數據結構

按照求導的鏈式法則，咱們能夠先求函數

\partial \partial Θ ( 2 ) J ( Θ ) = \partial \partial z ( 3 ) J ( Θ ) \times \partial z ( 3 ) \partial

由post

\partial \partial Θ ( 2 ) J ( Θ ) = δ ( 3 ) ( a ( 2 ) ) T

接下來僅須要計算優化

δ (3) = \partial J ( Θ ) z ( 3 ) = ( - y ) 1

至此咱們已經獲得atom

\partial J ( Θ ) \partial Θ ( 2 ) = ( a ( 2 ) ) T δ ( 3 )

δ (3) = a (3) - y

接下來咱們須要求

根據鏈式求導法則有

\partial J ( Θ ) \partial Θ ( 1 ) = \partial J ( Θ ) \partial z ( 3 ) \partial z

咱們分別計算等式右邊的三項可得:

\partial J ( Θ ) \partial z ( 3 ) = δ ( 3 )

\partial z ( 3 ) \partial a ( 2 ) = ( Θ ( 2 ) ) T

\partial a ( 2 ) \partial Θ ( 1 ) = \partial a ( 2 ) \partial z ( 2 ) \partial z

帶入後得

\partial J ( Θ ) \partial Θ ( 1 ) = ( a ( 1 ) ) T δ ( 3 ) ( Θ ( 2 ) ) T

令

\partial J ( Θ ) \partial Θ ( 1 ) = ( a ( 1 ) ) T δ ( 2 )

δ (2) = δ (3) (Θ (2)) T g' (z (2))

把上面的結果放在一塊兒，咱們獲得

δ (3) = a (3) - y

\partial J ( Θ ) \partial Θ ( 2 ) = ( a ( 2 ) ) T δ ( 3 )

δ (2) = δ (3) (Θ (2)) T g' (z (2))

\partial J ( Θ ) \partial Θ ( 1 ) = ( a ( 1 ) ) T δ ( 2 )

觀察上面的四個等式，咱們發現

偏導數能夠由當前層神經元向量
當前層的偏差向量

因此能夠從後往前逐層計算偏差向量（這就是後向傳播的來源），而後經過簡單的乘法運算獲得代價函數對每一層權重矩陣的偏導數。到這裏算是終於明白爲何要計算偏差向量，以及爲何偏差向量之間有遞歸關係了。儘管這裏的神經網絡十分簡單，推導過程也不是十分嚴謹，可是經過這個簡單的例子，基本可以理解後向傳播算法的工做原理了。

嚴謹的後向傳播算法（計算梯度）

假設咱們有

初始化：設置

For i = 1 : m

設置
經過前向傳播算法（FP）計算對各層的預測值
計算最後一層的偏差向量
更新

end // for

計算梯度:

D (l) i j = 1 m Δ ( l ) i j , j = 0

D (l) i j = 1 m Δ ( l ) i j + λ Θ ( l ) i j , j \neq 0

\partial J ( Θ ) \partial Θ ( l ) = D ( l )

BP實際運用中的技巧

1. 將參數展開成向量

對於四層三個權重矩陣參數

 
                 thetaVec = [Theta1(:); Theta2(:); Theta3(:)];

2. 梯度檢查

爲了保證梯度計算的正確性，能夠用數值解進行檢查，根據導數的定義

d J ( θ ) d θ \approx J ( θ + ϵ ) - J ( θ - ϵ ) 2 ϵ

Matlab Code 以下

 
                 for  
                 i  
                 = 1 : n 
                
                 thetaPlus = theta; 
                
                 thetaPlus( 
                 i 
                 ) = thetaPlus( 
                 i 
                 ) + EPS; 
                
                 thetaMinus = theta; 
                
                 thetaMinus( 
                 i 
                 ) = thetaMinus( 
                 i 
                 ) - EPS; 
                
                 gradApprox( 
                 i 
                 ) = (J(thetaPlus) - J(thetaMinus)) / (2 * EPS); 
                
                 end

最後檢查 gradApprox 是否約等於以前計算的梯度值便可。須要注意的是：由於近似的梯度計算代價很大，在梯度檢查後記得關閉梯度檢查的代碼。

3. 隨機初始化

初始權重矩陣的初始化應該打破對稱性 (symmetry breaking)，避免使用全零矩陣進行初始化。能夠採用隨機數進行初始化，即

如何訓練一個神經網絡

隨機初始化權重矩陣
利用前向傳播算法（FP）計算模型預測值
計算代價函數
利用後向傳播算法（BP）計算代價函數的梯度
利用數值算法進行梯度檢查(gradient checking)，確保正確後關閉梯度檢查
利用梯度降低（或者其餘優化算法）求得最優參數

附:一個簡短的後向傳播教學視頻

參考文獻

[1] Andrew Ng Coursera 公開課第五週

[2] Derivation of Backpropagation. http://web.cs.swarthmore.edu/~meeden/cs81/s10/BackPropDeriv.pdf

[3] Wikipedia: Backpropagation. https://en.wikipedia.org/wiki/Backpropagation

[4] How the backpropagation algorithm works. http://neuralnetworksanddeeplearning.com/chap2.html

[5] 神經網絡和反向傳播算法推導. http://www.mamicode.com/info-detail-671452.html

機器學習之反向傳播算法