關於L1和L2正則的使用

L1範數更容易產生稀疏的權重,L2範數更容易產生分散的權重,原因一般從公式角度或者幾何空間角度去解釋 從公式角度解釋:深度學習書7.1節(202頁左右)。帶L1正則化的最優參數w=sign(w*) max{|w*|- a/H , 0},其中w*代表未正則化的目標函數的最優參數,H代表海森矩陣,a是正則化係數,只要a足夠大,w*就會在更大區間範圍內使w變爲0,而帶L2正則化的最優參數w=H/(H+a
相關文章
相關標籤/搜索