dying relu 和weight decay

時間 2019-12-11

標籤 dying relu weight decay 简体版

原文原文鏈接

weight decay就是在原有loss後面，再加一個關於權重的正則化，相似與L2 正則，讓權重變得稀疏；
算法

參考：https://www.zhihu.com/question/24529483學習

dying relu是當梯度值過大時，權重更新後爲負數，經relu後變爲0，致使後面也再也不更新。優化

三種辦法：leak-relu、下降學習率、用 momentum based 優化算法，動態調整學習率spa

參考：https://www.zhihu.com/question/67151971.net

在訓練模型時，有時候須要對新加入的數據進行finetune，但可能finetune不動了，這就有多是kernel爲0了（weight decay和 dying relu形成的）。blog

解決的辦法是，訓練的時候固定scale。io

參考：https://zhuanlan.zhihu.com/p/61587832class

另參考sed

爲何bn後不加bias：數據

https://blog.csdn.net/u010698086/article/details/78046671

https://blog.csdn.net/hjxu2016/article/details/81813535

https://blog.csdn.net/elysion122/article/details/79628587

相關標籤/搜索