目錄算法
1、BP原理及求導網絡
2、softmax及求導函數
1、BP學習
一、爲何沿梯度方向是上升最快方向spa
根據泰勒公式對f(x)在x0處展開,獲得f(x) ~ f(x0) + f'(x0)(x-x0), 故獲得f(x) - f(x0) ~ f'(x0)(x-x0), 因此從x0出發,變化最快,即便f(x)-f(x0)最大,也就f'(x0)(x-x0),因爲f'(x0)與(x-x0)均爲向量(如今x0取的是一個數,若是放在多維座標那麼x0就是一個多維向量),由余弦定理f'(x0) 與(x-x0)方向相同時,點積最大,故梯度方向是上升最快方向。3d
二、什麼是BPblog
梯度反向傳播(back propagation)過程就是: 由前饋神經網絡獲得損失函數,而後根據損失函數後向地更新每一層的權重,目的就是讓損失函數變小get
三、BP的優點博客
四、BP的不足io
2、softmax函數及求導
一、softmax函數
在Logistic regression二分類問題中,咱們能夠使用sigmoid函數將輸入映射到區間中,從而獲得屬於某個類別的機率。將這個問題進行泛化,推廣到多分類問題中,咱們能夠使用softmax函數,對輸出的值歸一化爲機率值。
這裏假設在進入softmax函數以前,已經有模型輸出值,其中是要預測的類別數,模型能夠是全鏈接網絡的輸出,其輸出個數爲,即輸出爲。
因此對每一個樣本,它屬於類別的機率爲:
經過上式能夠保證 ,即屬於各個類別的機率和爲1。
二、求導
對softmax函數進行求導,即求
第項的輸出對第項輸入的偏導。
代入softmax函數表達式,能夠獲得:
因此,當時:
當時:
LOSS 求導
對一個樣原本說,真實類標籤分佈與模型預測的類標籤分佈能夠用交叉熵來表示:
最終,對全部的樣本,咱們有如下loss function:
其中是樣本屬於類別的機率,是模型對樣本預測爲屬於類別的機率。
對單個樣原本說,loss function對輸入的導數爲:
上面對求導結果已經算出:
當時:
當時:
因此,將求導結果代入上式
參考博客: