Deep learning II - I Practical aspects of deep learning - Vanishing/Exploring gradients 梯度消失/爆炸

Vanishing/Exploring gradients 梯度消失/爆炸 如圖所示,由於深度神經網絡深度較大,當每一層的 w w 都小於1或者都大於1時,最終的輸出值會成指數級較小或上升,造成梯度消失或者爆炸,從而使得梯度下降變得困難 1. 爲了不讓 z z 太大,當 n n 越大時, w w 的值應該越小 2. 針對 ReLU R e L U ,初始化 w[l]=np.random.randn
相關文章
相關標籤/搜索