機器學習中L1,L2正則化項

時間 2019-11-10

原文原文鏈接

搞過機器學習的同窗都知道，L1正則就是絕對值的方式，而L2正則是平方和的形式。L1能產生稀疏的特徵，這對大規模的機器學習灰常灰常重要。可是L1的求解過程，實在是太過蛋疼。因此即便L1能產生稀疏特徵，不到萬不得已，咱們也仍是寧肯用L2正則，由於L2正則計算起來方便得多。。。html

正則化項不該該以正則化的表面意思去理解，應該翻譯爲規則化纔對！git

通常回歸分析中迴歸 $w$ markdown

L1正則化是指權值向量 $w$
L2正則化是指權值向量 $w$

通常都會在正則化項以前添加一個係數，Python中用 $α$ 機器學習

那添加L1和L2正則化有什麼用？下面是L1正則化和L2正則化的做用，這些表述能夠在不少文章中找到。函數

L1正則化能夠產生稀疏權值矩陣，即產生一個稀疏模型，能夠用於特徵選擇
L2正則化能夠防止模型過擬合（overfitting）；必定程度上，L1也能夠防止過擬合

機器學習中正則化項L1和L2的直觀理解

正則化（Regularization）

機器學習中幾乎均可以看到損失函數後面會添加一個額外項，經常使用的額外項通常有兩種，通常英文稱做 $ℓ_{1}$ post

L1正則化和L2正則化能夠看作是損失函數的懲罰項。所謂『懲罰』是指對損失函數中的某些參數作一些限制。對於線性迴歸模型，使用L1正則化的模型建叫作Lasso迴歸，使用L2正則化的模型叫作Ridge迴歸（嶺迴歸）。下圖是Python中Lasso迴歸的損失函數，式中加號後面一項 $α | | w | |_{1}$ 學習

下圖是Python中Ridge迴歸的損失函數，式中加號後面一項 $α | | w | |_{2}^{2}$ atom

通常回歸分析中迴歸 $w$ spa

L1正則化是指權值向量 $w$
L2正則化是指權值向量 $w$

通常都會在正則化項以前添加一個係數，Python中用 $α$ .net

那添加L1和L2正則化有什麼用？下面是L1正則化和L2正則化的做用，這些表述能夠在不少文章中找到。

L1正則化能夠產生稀疏權值矩陣，即產生一個稀疏模型，能夠用於特徵選擇
L2正則化能夠防止模型過擬合（overfitting）；必定程度上，L1也能夠防止過擬合

稀疏模型與特徵選擇

上面提到L1正則化有助於生成一個稀疏權值矩陣，進而能夠用於特徵選擇。爲何要生成一個稀疏矩陣？

稀疏矩陣指的是不少元素爲0，只有少數元素是非零值的矩陣，即獲得的線性迴歸模型的大部分系數都是0. 一般機器學習中特徵數量不少，例如文本處理時，若是將一個詞組（term）做爲一個特徵，那麼特徵數量會達到上萬個（bigram）。在預測或分類時，那麼多特徵顯然難以選擇，可是若是代入這些特徵獲得的模型是一個稀疏模型，表示只有少數特徵對這個模型有貢獻，絕大部分特徵是沒有貢獻的，或者貢獻微小（由於它們前面的係數是0或者是很小的值，即便去掉對模型也沒有什麼影響），此時咱們就能夠只關注係數是非零值的特徵。這就是稀疏模型與特徵選擇的關係。

L1和L2正則化的直觀理解

這部份內容將解釋爲何L1正則化能夠產生稀疏模型（L1是怎麼讓係數等於零的），以及爲何L2正則化能夠防止過擬合。

L1正則化和特徵選擇

假設有以下帶L1正則化的損失函數：

J = J 0 + α \sum w | w | (1)

其中

J_{0}

圖1 L1正則化

圖中等值線是 $J_{0}$

而正則化前面的係數 $α$

相似，假設有以下帶L2正則化的損失函數：

J = J 0 + α \sum w w 2 (2)

J_{0}

圖2 L2正則化

二維平面下L2正則化的函數圖形是個圓，與方形相比，被磨去了棱角。所以 $J_{0}$

L2正則化和過擬合

擬合過程當中一般都傾向於讓權值儘量小，最後構造一個全部參數都比較小的模型。由於通常認爲參數值小的模型比較簡單，能適應不一樣的數據集，也在必定程度上避免了過擬合現象。能夠設想一下對於一個線性迴歸方程，若參數很大，那麼只要數據偏移一點點，就會對結果形成很大的影響；但若是參數足夠小，數據偏移得多一點也不會對結果形成什麼影響，專業一點的說法是『抗擾動能力強』。

那爲何L2正則化能夠得到值很小的參數？

以線性迴歸中的梯度降低法爲例。假設要求的參數爲 $θ$