weight decay就是在原有loss後面,再加一個關於權重的正則化,相似與L2 正則,讓權重變得稀疏;
算法
參考:https://www.zhihu.com/question/24529483學習
dying relu是當梯度值過大時,權重更新後爲負數,經relu後變爲0,致使後面也再也不更新。優化
三種辦法:leak-relu、下降學習率、用 momentum based 優化算法,動態調整學習率spa
參考:https://www.zhihu.com/question/67151971.net
在訓練模型時,有時候須要對新加入的數據進行finetune,但可能finetune不動了,這就有多是kernel爲0了(weight decay和 dying relu形成的)。blog
解決的辦法是,訓練的時候固定scale。io
參考:https://zhuanlan.zhihu.com/p/61587832class
另參考sed
爲何bn後不加bias:數據
https://blog.csdn.net/u010698086/article/details/78046671
https://blog.csdn.net/hjxu2016/article/details/81813535
https://blog.csdn.net/elysion122/article/details/79628587