weight-decay與L2正則化差異

最近在看其他量化訓練的一些代碼、論文等,不經意間注意到有人建議要關注weight decay值的設置,建議設置爲1e-4, 不要設置爲1e-5這麼小,當然,這個值最好還是在當下的訓練任務上調一調。 因爲weight-decay 可以使參數儘可能地小,儘可能地緊湊,那這樣權重的數值就不太可能出現若干個極端數值(偏離權重均值過大或過小)導致數值區間過大,這樣求得的scale=(b-a)/255 會偏大
相關文章
相關標籤/搜索