梯度消失與梯度爆炸

梯度消失與梯度爆炸 網絡層數太多是導致梯度消失或者梯度爆炸的直接原因, 使用S型激活函數(如:sigmoid函數,tanh函數)會導致梯度消失問題,初始權重設置太大會導致梯度爆炸。 梯度消失指的是權重不再更新,直觀上看是從最後一層到第一層權重的更新越來越慢,直至不更新。本質原因是反向傳播的連乘效應,導致最後對權重的偏導接近於零。 主要是因爲以前用sigmoid的時候,sigmoid中心部位和兩側的
相關文章
相關標籤/搜索