梯度彌散與梯度爆炸

問題描述 先來看看問題描述。 當我們使用sigmoid funciton 作爲激活函數時,隨着神經網絡hidden layer層數的增加,訓練誤差反而加大了,如上圖所示。 下面以2層隱藏層神經網絡爲例,進行說明。 結點中的柱狀圖表示每個神經元參數的更新速率(梯度)大小,有圖中可以看出,layer2整體速度都要大於layer1. 我們又取每層layer中參數向量的長度來粗略的估計該層的更新速率,得到
相關文章
相關標籤/搜索