1、損失函:機器學習
模型的結構風險函數包括了 經驗風險項 和 正則項,以下所示:ide
2、損失函數中的正則項函數
1.正則化的概念:學習
機器學習中都會看到損失函數以後會添加一個額外項,經常使用的額外項通常有2種,L1正則化和L2正則化。L1和L2能夠看作是損失函數的懲罰項,所謂懲罰項是指對損失函數中某些參數作一些限制,以下降模型的複雜度。優化
L1正則化經過稀疏參數(特徵稀疏化,下降權重參數的數量)來下降模型的複雜度;spa
L2正則化經過下降權重的數值大小來下降模型複雜度。blog
對於線性迴歸模型,使用L1正則化的模型叫作Lasso迴歸,使用L2正則化的模型叫作Ridge迴歸(嶺迴歸)。文檔
通常正則化項前面添加一個係數λ,數值大小須要用戶本身指定,稱權重衰減係數weight_decay,表示衰減的快慢。get
2.L1正則化和L2正則化的做用:io
·L1正則化能夠產生稀疏權值矩陣,即產生一個稀疏模型,能夠用於特徵選擇。
·L2正則化能夠減少參數大小,防止模型過擬合;必定程度上L1也能夠防止過擬合
稀疏矩陣的概念:
·在矩陣中,若數值爲0的元素數目遠遠超過非0元素的數目時,則該矩陣爲稀疏矩陣。與之相反,若非0元素數目佔大多數時,則稱該矩陣爲稠密矩陣。
三、正則項的直觀理解
引用文檔連接:
https://baijiahao.baidu.com/s?id=1621054167310242353&wfr=spider&for=pc
分別從如下角度對L1和L2正則化進行解釋:
一、 優化角度分析
二、 梯度角度分析
三、 圖形角度分析
四、 PRML的圖形角度分析
優化角度分析:
L2正則化的優化角度分析:
即在限定區域找到使得ED(W)最小的權重W。
假設n=2,即只有2個參數w1和w2;做圖以下:
圖中紅色的圓便是限定區域,簡化爲2個參數就是w1和w2,限定區域w12+w22≤C便是以原點爲圓心的圓。藍色實線和虛線是等高線,外高內低,越靠裏面的等高圓ED(W)越小。梯度降低的方向(梯度的反方向-▽ED(W)),即圖上灰色箭頭的方向,由外圓指向內圓的方向 表示;正則項邊界上運動點P1和P2的切線用綠色箭頭表示,法向量用實黑色箭頭表示。切點P1上的切線在梯度降低方向有份量,仍有往負梯度方向運動的趨勢;而切點P2上的法向量正好是梯度降低的方向,切線方向在梯度降低方向無份量,因此往梯度降低方向沒有運動趨勢,已經是梯度最小的點。
結論:L2正則項使E最小時對應的參數W變小(離原點的距離更小)
L1正則化的優化角度分析:
在限定區域,找到使ED(w)的最小值。
同上,假設參數數量爲2:w1和w2,限定區域爲|w1|+|w2|≤C ,即爲以下矩形限定區域,限定區域邊界上的點的切向量的方向始終指向w2軸,使得w1=0,因此L1正則化容易使得參數爲0,即便參數稀疏化。
梯度角度分析:
L1正則化:
L1正則化的損失函數爲:
L1正則項的添加使參數w的更新增長了,sgn(w)爲階躍函數,當w大於0,sgn(w)>0,參數w變小;當w小於0時,更新參數w變大,因此整體趨勢使得參數變爲0,即特徵稀疏化。
L2正則化:
L2正則化的損失函數爲:
由上式能夠看出,正則化的更新參數相比沒有加正則項的更新參數多了,當w>0時,正則項使得參數增大變慢(減去一個數值,增大的沒那麼快),當w<0時,正則項使得參數減少變慢(加上一個數值,減少的沒那麼快),整體趨勢變得很小,但不爲0。
PRML的圖形角度分析
L1正則化在零點附近具備很明顯的棱角,L2正則化則在零附近是比較光滑的曲線。因此L1正則化更容易使參數爲零,L2正則化則減少參數值,以下圖。
L1正則項
L2正則項
以上是根據閱讀百度網友文章作的筆記(其中包括本身的理解),感謝該文檔做者,引用連接: