機器學習算法（三）——Ridge算法和Lasso算法

時間 2019-12-20

標籤機器學習算法 ridge lasso 简体版

原文原文鏈接

1、算法簡介

1-一、嶺迴歸（Ridge Regression）

上節咱們講到了線性迴歸，那麼思考這麼一個問題：算法

若是數據特徵比樣本點還多怎麼辦？
是否還可使用線性迴歸和以前的方法來作預測？

答案是：否認的。由於此時輸入數據的矩陣不是滿秩矩陣，非滿秩矩陣在求逆時會出現問題。編程

爲了解決這個問題，引入了嶺迴歸（Ridge Regression）的概念。網絡

縮減方法能夠去掉不重要的參數，所以能更好地理解數據。此外，與簡單的線性迴歸相比，縮減法能取得更好的預測效果。函數

1-二、套索迴歸（Lasso Regression）

除了Ridge，還有一種正則化的線性迴歸是Lasso。與嶺迴歸相同，使用Lasso也是約束係數使其接近於0。優化

2、算法原理

2-一、嶺迴歸原理

Ridge迴歸經過對係數的大小進行懲罰來解決普通最小二乘的一些問題。公式以下：3d

嶺迴歸是加了二階正則項的最小二乘，主要適用於過擬合嚴重或各變量之間存在多重共線性的時候，嶺迴歸是有bias的，這裏的bias是爲了讓variance更小。code

因此嶺迴歸的關鍵是找到一個合理的α值來平衡模型的方差和誤差。

α的選擇：

模型的方差：迴歸係數的方差
模型的誤差：預測值和真實值的差別

2-二、套索迴歸原理

嶺迴歸沒法剔除變量，而LASSO迴歸模型，將懲罰項由L2範數變爲L1範數，能夠將一些不重要的迴歸係數縮減爲0，達到剔除變量的目的。blog

Lasso迴歸做用：所以它的效果就是讓w往0靠，使網絡中的權重儘量爲0，也就至關於減少了網絡複雜度，防止過擬合。ci

3、算法要點

過擬合（over-fitting）：在訓練數據不夠時，或者over-training時，經常會致使over-fitting（過擬合）。會使得對於訓練數據準確率高，對於新數據準確率低。it

避免過擬合的方法有不少：early stopping、數據集擴增（Data augmentation）、正則化（Regularization）包括L一、L2（L2 regularization也叫weight decay），dropout。

3-一、L1正則化

爲何叫L1正則化？

由於後面加上了||w||的一次冪。

正則（Re) -------> Regularization(規則化)限制，不能讓係數無限大。係數波動大，方程不穩定。

比原始的更新規則多出了η * λ * sgn(w)/n這一項。當w爲正時，更新後的w變小。當w爲負時，更新後的w變大。

另外，上面沒有提到一個問題，當w爲0時怎麼辦？當w等於0時，|W|是不可導的，因此咱們只能按照原始的未經正則化的方法去更新w，這就至關於去掉ηλsgn(w)/n這一項，因此咱們能夠規定sgn(0)=0，這樣就把w=0的狀況也統一進來了。（在編程的時候，令sgn(0)=0,sgn(w>0)=1,sgn(w<0)=-1）