轉自:https://www.zhihu.com/question/24827633/answer/91489990網絡
對於節點 來講, 的淨輸入 以下:函數
接着對 作一個sigmoid函數獲得節點 的輸出:
相似的,咱們能獲得節點 、 、 的輸出 、 、 。blog
獲得結果後,整個神經網絡的輸出偏差能夠表示爲:
其中 就是剛剛經過前向傳播算出來的 、 ; 是節點 、 的目標值。 用來衡量兩者的偏差。
這個 也能夠認爲是cost function,不過這裏省略了防止overfit的regularization term( )
展開獲得
get
經過梯度降低調整 ,須要求 ,由鏈式法則:
,
以下圖所示:it
以上3個相乘獲得梯度 ,以後就能夠用這個梯度訓練了:
不少教材好比Stanford的課程,會把中間結果 記作 ,表示這個節點對最終的偏差須要負多少責任。。因此有 。io
經過梯度降低調整 ,須要求 ,由鏈式法則:
,function
以下圖所示:神經網絡
參數 影響了 ,進而影響了 ,以後又影響到 、 。
求解每一個部分:im
,img
其中
,這裏 以前計算過
的計算也相似,因此獲得
的鏈式中其餘兩項以下:
,
相乘獲得
獲得梯度後,就能夠對 迭代了:
。
在前一個式子裏一樣能夠對 進行定義,
因此整個梯度能夠寫成