機器學習與Deep Learning算法問題彙總(Part-2)

7. 什麼是梯度彌散?要怎麼去解決這個問題? 答: 隨着網絡層數變深, activations傾向於越大和越小的方向前進, 往大走梯度爆炸(回想一下你在求梯度時, 每反向傳播一層, 都要乘以這一層的activations), 往小走進入死區, 梯度消失。 這兩個問題最大的影響是, 深層網絡難於converge。sigmoid不存在梯度爆炸, 在activations往越大越小的方向上前進時, 梯度
相關文章
相關標籤/搜索