BP算法學習筆記
1 學習基礎–神經網絡的基本原理和前向過程
如下圖所示,這時一個簡單的神經網絡模型,通過這樣一個模型我們就可以完成一些工作。例如我們輸入三個數據,a1表示一個公司的銀行存款,a2表示所擁有的固定資產估值,a3表示這個人最近一個月的利潤,out1表示這是狀態良好,out2表示它狀態不好。現在我們要通過這個網絡來判斷,我們是否給這個公司發放貸款。
![在這裏插入圖片描述](http://static.javashuo.com/static/loading.gif)
現在我們先明確一下圖中參數的意義:w表示權重,b表示偏置,下面是基本計算步驟。
z11=a1∗w1,11+a2∗w2,11+a3∗w3,11+b11z21=a1∗w1,21+a2∗w2,21+a3∗w3,21+b21h11=g(z11)h21=g(z21)z12=h11∗w1,12+h21∗w1,22+b12z22=h11∗w2,12+h21∗w2,22+b22out1=g(z12)out1=g(z22)
其中
g(x) 是激活函數,激活函數有多種可以選擇,其數學意義是使我們的網絡從線性網絡到非線性網絡,因爲多數問題都是非線性的,至於詳細原因分析見:未完成,在MINST數據集判斷在我們使用ReLU函數作爲激活函數。
f(x)={x0ififx>0x⩽0
現在通過這個網絡設置一組合理的偏置和權重就能使用這個網絡幫我們做出決定。最長用到的比如我們有一組手寫數組的照片,我們可以設定一組合適的值來判斷這個數字是多少。這個就是新手入門必學的MINST手寫數據集判斷了。在下一篇中會用Python和這個數據集來實現。
那我們的問題就是找到這樣一組合適的數據。這個方法就是BP算法了(Error Back Propagation 誤差反向傳播算法)
2反向傳播的基本原理
反向傳播中主要用到兩個原理,鏈式求導法則和偏導數。
2.1概述
反向傳播算法的全稱是誤差反向傳播算法,其本質通過總的誤差函數對每一個權重和偏置求偏導數,再通過偏導數更新權值和偏置,多次重複此步驟以找到最佳的偏置和權重值。(其原理是偏導數反應了某個函數值對整體的影響程度,同時兩個偏導數剛好構成我們誤差函數的梯度,而沿梯度方向函數最容易找到最小值,誤差函數的最小值可不就是誤差最小了嗎,誤差最小不就是我們找到最佳的一組權值和偏置了嗎)
2.2誤差函數
誤差函數也是有多種可以選擇的,至於詳細分析見:未完成 。在MINST數據集判斷在我們使用均方誤差函數作爲誤差函數。其形式如下:
L=21i∑(outi−targeti)2
target 表示已知的真確結果。
2.3偏導數和梯度
現在我們再看誤差函數 L ,此時我們將此函數的w(權值)和 b (偏置)作爲變量(其他值都是係數)。則我們有構成函數:
L=f(W,B)
依照上圖給出的示例,此時有一個由10個權值和4個偏置作爲變量構成的函數。現在來明確一下梯度的概念:對於二位函數
f(x,y) 他的梯度表示爲
∇=(∂x∂f,∂y∂f) ,而我們都知道,沿着梯度方向函數值下降速度最快。關於導數,偏導數,梯度的具體分析見未完成。那麼對於誤差函數,我們自然是希望它的函數值爲0最好了,所以我們就要求誤差函數的梯度,然後沿着梯度方向更新變量取值(即選擇權值和偏置的值)。則誤差函數的梯度爲:
∇=(∂w1,11∂L,∂w2,11∂L,∂w3,11∂L,∂w1,21∂L,∂w2,21∂L,∂w3,21∂L,∂w1,12∂L,∂w2,12∂L,∂w1,22∂L,∂w2,22∂L,∂b11∂L,∂b21∂L,∂b12∂L,∂b22∂L)
2.4 BP算法
現在我們學習BP算法的前置知識都具備了,我們開始推到整個過程。
2.4.1 輸出層推導
輸出層需要計算的偏導
∂w1,12∂L,∂w2,12∂L,∂w1,22∂L,∂w2,22∂L,∂b12∂L,∂b22∂L ,我們依次計算這些值。
∂w1,12∂L=∂out1∂L×∂z12∂out1×∂w1,12∂z12∂w1,22∂L=∂out2∂L×∂z22∂out2×∂w1,22∂z22∂w2,12∂L=∂out1∂L×∂z12∂out1×∂w2,12∂z12∂w2,22∂L=∂out2∂L×∂z22∂out2×∂w2,22∂z22∂b12∂L=∂out2∂L×∂z12∂out2×∂b12∂z12∂b22∂L=∂out2∂L×∂z22∂out2×∂b22∂z22
將這些公式總結到一起表示如下
∂wm,nL∂L=∂outn∂L×∂znL∂outn×∂wm,nL∂znL=∂outn∂L×∂znL∂outn×hmL∂bnL∂L=∂outn∂L×∂znL∂outn×∂bnL∂znL=∂outn∂L×∂znL∂outn
令
δnL=∂outn∂L×∂znL∂outn 則上式化簡爲:
∂wm,nL∂L=δnL×hmL(式1-1)
∂bnL∂L=δnL(式1-2)
2.4.2 隱藏層推導
隱藏層需要計算
∂w1,11∂L,∂w2,11∂L,∂w3,11∂L,∂w1,21∂L,∂w2,21∂L,∂w3,21∂L,∂b11∂L,∂b21∂L ,依次計算如下: