Deep learning II - I Practical aspects of deep learning - Vanishing/Exploring gradients 梯度消失/爆炸

時間 2020-12-20

標籤梯度消失梯度爆炸简体版

原文原文鏈接

Vanishing/Exploring gradients 梯度消失/爆炸如圖所示，由於深度神經網絡深度較大，當每一層的 w w 都小於1或者都大於1時，最終的輸出值會成指數級較小或上升，造成梯度消失或者爆炸，從而使得梯度下降變得困難 1. 爲了不讓 z z 太大，當 n n 越大時， w w 的值應該越小 2. 針對 ReLU R e L U ，初始化 w[l]=np.random.randn

>>阅读原文<<