dying relu 和weight decay

weight decay就是在原有loss後面,再加一個關於權重的正則化,相似與L2 正則,讓權重變得稀疏;
算法

參考:https://www.zhihu.com/question/24529483學習

dying relu是當梯度值過大時,權重更新後爲負數,經relu後變爲0,致使後面也再也不更新。優化

三種辦法:leak-relu、下降學習率、用 momentum based 優化算法,動態調整學習率spa

參考:https://www.zhihu.com/question/67151971.net

 

在訓練模型時,有時候須要對新加入的數據進行finetune,但可能finetune不動了,這就有多是kernel爲0了(weight decay和 dying relu形成的)。blog

解決的辦法是,訓練的時候固定scale。io

參考:https://zhuanlan.zhihu.com/p/61587832class

 

另參考sed

爲何bn後不加bias:數據

https://blog.csdn.net/u010698086/article/details/78046671

https://blog.csdn.net/hjxu2016/article/details/81813535

https://blog.csdn.net/elysion122/article/details/79628587

相關文章
相關標籤/搜索