反向傳播算法（過程及公式推導）

時間 2019-11-11

原文原文鏈接

1、反向傳播的由來

在咱們開始DL的研究以前，須要把ANN—人工神經元網絡以及bp算法作一個簡單解釋。
關於ANN的結構，我再也不多說，網上有大量的學習資料，主要就是搞清一些名詞：
輸入層/輸入神經元，輸出層/輸出神經元，隱層/隱層神經元，權值，偏置，激活函數

接下來咱們須要知道ANN是怎麼訓練的，假設ANN網絡已經搭建好了，在全部應用問題中（無論是網絡結構，訓練手段如何變化）咱們的目標是不會變的，那就是網絡的權值和偏置最終都變成一個最好的值，這個值可讓咱們由輸入能夠獲得理想的輸出，因而問題就變成了y=f(x，w，b)（x是輸入，w是權值，b爲偏置，全部這些量均可以有多個，好比多個x1，x2，x3……最後f()就比如咱們的網絡它必定能夠用一個函數來表示，咱們不須要知道f(x)具體是怎樣的函數，從小咱們就認爲只要是函數就必定要是可表示的，像f(x)=sin(x)同樣，可是請擯棄這樣的錯誤觀念，咱們只須要知道一系列的w和b決定了一個函數f（x），這個函數讓咱們由輸入能夠計算出合理的y）

最後的目標就變成了嘗試不一樣的w，b值，使得最後的y=f（x）無限接近咱們但願獲得的值t

可是這個問題依然很複雜，咱們把它簡化一下，讓（y-t）^2的值儘量的小。因而原先的問題化爲了C（w，b）=（f（x，w，b）-t）^2取到一個儘量小的值。這個問題不是一個困難的問題，不論函數如何複雜，若是C下降到了一個沒法再下降的值，那麼就取到了最小值（假設咱們不考慮局部最小的狀況）html

如何降低？數學告訴咱們對於一個多變量的函數f(a,b,c,d,……)而言，咱們能夠求得一個向量，它稱做該函數的梯度，要注意的是，梯度是一個方向向量，它表示這個函數在該點變化率最大的方向（這個定理不詳細解釋了，能夠在高等數學教材上找到）因而C（w，b）的變化量ΔC就能夠表示成算法

其中網絡

是該點上的微小變化，咱們能夠隨意指定這些微小變化，只須要保證ΔC<0就能夠了，可是爲了更快的降低，咱們爲什麼不選在梯度方向上作變化呢？函數

事實上，梯度降低的思想就是這樣考慮的，咱們使得從而保證C一直遞減，而對於w來講只要每次更新便可。

ok，到這裏，彷佛全部的問題都解決了，讓咱們從新整理一下思緒，咱們將問題轉化了不少步：
網絡權值偏置更新問題 ==> f（x，w，b）的結果逼近t ==> C（w，b）=（f（x，w，b）-t）^2取極小值問題 ==> C（w，b）按梯度降低問題 ==>取到極小值，網絡達到最優

千萬別忘了一點！！推導基於一個前提：咱們已經提早知道了當前點的梯度。然而事實並不是如此！！
這個問題困擾了NN研究者多年，1969年M.Minsky和S.Papert所著的《感知機》一書出版，它對單層神經網絡進行了深刻分析，而且從數學上證實了這種網絡功能有限，甚至不能解決象"異或"這樣的簡單邏輯運算問題。同時，他們還發現有許多模式是不能用單層網絡訓練的，而對於多層網絡則沒有行之有效的低複雜度算法，最後他們甚至認爲神經元網絡沒法處理非線性問題。然而於1974年，Paul Werbos首次給出瞭如何訓練通常網絡的學習算法—back propagation。這個算法能夠高效的計算每一次迭代過程當中的梯度，讓以上咱們的推導得以實現！！
不巧的是，在當時整我的工神經網絡社羣中無人知曉Paul所提出的學習算法。直到80年代中期，BP算法才從新被David Rumelhart、Geoffrey Hinton及Ronald Williams、David Parker和Yann LeCun獨立發現，並得到了普遍的注意，引發了人工神經網絡領域研究的第二次熱潮。學習

2、原理的引入

上面已經提到，所謂反向傳播，就是計算梯度的方法。對於反向傳播，先不急着介紹它的原理，不少文章直接引入公式，反而使得咱們很難去理解。這裏先引入知乎上某位大神的回答。spa

來源：知乎https://www.zhihu.com/question/27239198?rf=24827633.net

假設輸入a=2，b=1，在這種狀況下，咱們很容易求出相鄰節點之間的偏導關係3d

利用鏈式法則：htm

$\frac{\partial e}{\partial a}=\frac{\partial e}{\partial c}\cdot \frac{\partial c}{\partial a}$ 以及 $\frac{\partial e}{\partial b}=\frac{\partial e}{\partial c}\cdot \frac{\partial c}{\partial b}+\frac{\partial e}{\partial d}\cdot \frac{\partial d}{\partial b}$ blog

$\frac{\partial e}{\partial a}$ 的值等於從a到e的路徑上的偏導值的乘積，而 $\frac{\partial e}{\partial b}$ 的值等於從b到e的路徑1(b-c-e)上的偏導值的乘積加上路徑2(b-d-e)上的偏導值的乘積。也就是說，對於上層節點p和下層節點q，要求得 $\frac{\partial p}{\partial q}$ ，須要找到從q節點到p節點的全部路徑，而且對每條路徑，求得該路徑上的全部偏導數之乘積，而後將全部路徑的「乘積」累加起來才能獲得 $\frac{\partial p}{\partial q}$ 的值。

這種狀況下偏導很容易求得，由於咱們已經知道網絡的函數關係式，e=（a+b）*（b+1），這是一個沒有權值干預，已知輸入與輸出之間關係的網絡。實際當中咱們只是知道e與輸出之間的關係，就是上面說的C=（y-t）^2，並且會有成千上萬的權值和偏置干預求導的過程。那麼換個思路，能不能求輸出對結果的偏導呢？

再利用上圖的關係。節點c對e偏導2並將結果堆放起來，節點d對e偏導3並將結果堆放起來，至此第二層完畢，求出各節點總堆放量並繼續向下一層發送。節點c向a發送2*1並對堆放起來，節點c向b發送2*1並堆放起來，節點d向b發送3*1並堆放起來，至此第三層完畢，節點a堆放起來的量爲2，節點b堆放起來的量爲2*1+3*1=5, 即頂點e對b的偏導數爲5。簡要的歸納，就是從最上層的節點e開始，以層爲單位進行處理。對於e的下一層的全部子節點，將1乘以e到某個節點路徑上的偏導值，並將結果「堆放」在該子節點中。等e所在的層按照這樣傳播完畢後，第二層的每個節點都「堆放"些值，而後咱們針對每一個節點，把它裏面全部「堆放」的值求和，就獲得了頂點e對該節點的偏導。而後將這些第二層的節點各自做爲起始頂點，初始值設爲頂點e對它們的偏導值，以"層"爲單位重複上述傳播過程，便可求出頂點e對每一層節點的偏導數。

3、一個很好的例子

如今，咱們再把權值考慮進去，如下是一個很好的例子，有助於咱們去理解反向傳播

來源：Charlotte77的博客 http://www.cnblogs.com/charlotte77/p/5629865.html

假設，你有這樣一個網絡層：

第一層是輸入層，包含兩個神經元i1，i2，和截距項b1；第二層是隱含層，包含兩個神經元h1,h2和截距項b2，第三層是輸出o1,o2，每條線上標的wi是層與層之間鏈接的權重，激活函數咱們默認爲sigmoid函數。

　　如今對他們賦上初值，以下圖：

　　其中，輸入數據 i1=0.05，i2=0.10;

　　　　　輸出數據 o1=0.01,o2=0.99;

　　　　　初始權重 w1=0.15,w2=0.20,w3=0.25,w4=0.30;

　　　　　　　　　 w5=0.40,w6=0.45,w7=0.50,w8=0.88

　　目標：給出輸入數據i1,i2(0.05和0.10)，使輸出儘量與原始輸出o1,o2(0.01和0.99)接近。

　　Step 1 前向傳播

　　1.輸入層---->隱含層：

　　計算神經元h1的輸入加權和：

神經元h1的輸出o1:(此處用到激活函數爲sigmoid函數)：

同理，可計算出神經元h2的輸出o2：

2.隱含層---->輸出層：

　　計算輸出層神經元o1和o2的值：

這樣前向傳播的過程就結束了，咱們獲得輸出值爲[0.75136079 , 0.772928465]，與實際值[0.01 , 0.99]相差還很遠，如今咱們對偏差進行反向傳播，更新權值，從新計算輸出。

Step 2 反向傳播

1.計算總偏差

總偏差：(square error)

可是有兩個輸出，因此分別計算o1和o2的偏差，總偏差爲二者之和：

2.隱含層---->輸出層的權值更新：

以權重參數w5爲例，若是咱們想知道w5對總體偏差產生了多少影響，能夠用總體偏差對w5求偏導求出：（鏈式法則）

下面的圖能夠更直觀的看清楚偏差是怎樣反向傳播的：

如今咱們來分別計算每一個式子的值：

計算：

（這一步實際上就是對sigmoid函數求導，比較簡單，能夠本身推導一下）

計算：

最後三者相乘：

這樣咱們就計算出總體偏差E(total)對w5的偏導值。

回過頭來再看看上面的公式，咱們發現：

爲了表達方便，用來表示輸出層的偏差：

所以，總體偏差E(total)對w5的偏導公式能夠寫成：

若是輸出層偏差計爲負的話，也能夠寫成：

最後咱們來更新w5的值：

（其中，是學習速率，這裏咱們取0.5）

同理，可更新w6,w7,w8:

3.隱含層---->隱含層的權值更新：

　方法其實與上面說的差很少，可是有個地方須要變一下，在上文計算總偏差對w5的偏導時，是從out(o1)---->net(o1)---->w5,可是在隱含層之間的權值更新時，是out(h1)---->net(h1)---->w1,而out(h1)會接受E(o1)和E(o2)兩個地方傳來的偏差，因此這個地方兩個都要計算。

計算：

先計算：

同理，計算出：

二者相加獲得總值：

再計算：

最後，三者相乘：

爲了簡化公式，用sigma(h1)表示隱含層單元h1的偏差：

最後，更新w1的權值：

同理，額可更新w2,w3,w4的權值：

這樣偏差反向傳播法就完成了，最後咱們再把更新的權值從新計算，不停地迭代，在這個例子中第一次迭代以後，總偏差E(total)由0.298371109降低至0.291027924。迭代10000次後，總偏差爲0.000035085，輸出爲[0.015912196,0.984065734](原輸入爲[0.01,0.99]),證實效果仍是不錯的