線性迴歸總結

時間 2019-11-26

標籤線性迴歸總結欄目應用數學简体版

原文原文鏈接

scikit-learn對於線性迴歸提供了比較多的類庫，這些類庫均可以用來作線性迴歸分析，本文就對這些類庫的使用作一個總結，重點講述這些線性迴歸算法庫的不一樣和各自的使用場景。算法

　　　　線性迴歸的目的是要獲得輸出向量 $Y$ 編程

　　　　爲了獲得線性迴歸係數 $θ$ 多線程

1. LinearRegression

　　　　損失函數：函數

　　　　LinearRegression類就是咱們平時說的最多見普通的線性迴歸，它的損失函數也是最簡單的，以下：學習

　　　　 $J (θ) = \frac{1}{2} (X θ - Y)^{T} (X θ - Y)$ 測試

　　　　損失函數的優化方法：優化

　　　　對於這個損失函數，通常有梯度降低法和最小二乘法兩種極小化損失函數的優化方法，而scikit中的LinearRegression類用的是最小二乘法。經過最小二乘法，能夠解出線性迴歸係數 $θ$ ui

　　　　 $θ = (X^{T} X)^{- 1} X^{T} Y$ atom

　　　　驗證方法：spa

　　　　LinearRegression類並無用到交叉驗證之類的驗證方法，須要咱們本身把數據集分紅訓練集和測試集，而後訓練優化。

　　　　使用場景：

　　　　通常來講，只要咱們以爲數據有線性關係，LinearRegression類是咱們的首先。若是發現擬合或者預測的很差，再考慮用其餘的線性迴歸庫。若是是學習線性迴歸，推薦先從這個類開始第一步的研究。

2. Ridge

　　　　損失函數：　

　　　　因爲第一節的LinearRegression沒有考慮過擬合的問題，有可能泛化能力較差，這時損失函數能夠加入正則化項，若是加入的是L2範數的正則化項，這就是Ridge迴歸。損失函數以下：

　　　　 $J (θ) = \frac{1}{2} (X θ - Y)^{T} (X θ - Y) + \frac{1}{2} α | | θ | |_{2}^{2}$

　　　　其中 $α$

　　　　Ridge迴歸在不拋棄任何一個特徵的狀況下，縮小了迴歸係數，使得模型相對而言比較的穩定，不至於過擬合。

　　　　損失函數的優化方法：

　　　　對於這個損失函數，通常有梯度降低法和最小二乘法兩種極小化損失函數的優化方法，而scikit中的Ridge類用的是最小二乘法。經過最小二乘法，能夠解出線性迴歸係數 $θ$

　　　　 $θ = (X^{T} X + α E)^{- 1} X^{T} Y$

　　　　其中E爲單位矩陣。

　　　　驗證方法：

　　　　Ridge類並無用到交叉驗證之類的驗證方法，須要咱們本身把數據集分紅訓練集和測試集，須要本身設置好超參數 $α$

　　　　使用場景：

　　　　通常來講，只要咱們以爲數據有線性關係，用LinearRegression類擬合的不是特別好，須要正則化，能夠考慮用Ridge類。可是這個類最大的缺點是每次咱們要本身指定一個超參數 $α$

3. RidgeCV

　　　　RidgeCV類的損失函數和損失函數的優化方法徹底與Ridge類相同，區別在於驗證方法。

　　　　驗證方法：

　　　　RidgeCV類對超參數 $α$

　　　　使用場景：

　　　　通常來講，只要咱們以爲數據有線性關係，用LinearRegression類擬合的不是特別好，須要正則化，能夠考慮用RidgeCV類。不是爲了學習的話就不用Ridge類。爲何這裏只是考慮用RidgeCV類呢？由於線性迴歸正則化有不少的變種，Ridge只是其中的一種。因此可能須要比選。若是輸入特徵的維度很高，並且是稀疏線性關係的話，RidgeCV類就不合適了。這時應該主要考慮下面幾節要講到的Lasso迴歸類家族。

4. Lasso

　　　　損失函數：

　　　　線性迴歸的L1正則化一般稱爲Lasso迴歸，它和Ridge迴歸的區別是在損失函數上增長了的是L1正則化的項，而不是L2正則化項。L1正則化的項也有一個常數係數 $α$

　　　　 $J (θ) = \frac{1}{2 m} (X θ - Y)^{T} (X θ - Y) + α | | θ | |_{1}$

　　　　其中n爲樣本個數， $α$

　　　　Lasso迴歸可使得一些特徵的係數變小，甚至仍是一些絕對值較小的係數直接變爲0。加強模型的泛化能力。

　　　　損失函數的優化方法：

　　　　Lasso迴歸的損失函數優化方法經常使用的有兩種，座標軸降低法和最小角迴歸法。Lasso類採用的是座標軸降低法，後面講到的LassoLars類採用的是最小角迴歸法

　　　　驗證方法：

　　　　Lasso類並無用到交叉驗證之類的驗證方法，和Ridge類相似。須要咱們本身把數據集分紅訓練集和測試集，須要本身設置好超參數 $α$

　　　　使用場景：

　　　　通常來講，對於高維的特徵數據，尤爲線性關係是稀疏的，咱們會採用Lasso迴歸。或者是要在一堆特徵裏面找出主要的特徵，那麼Lasso迴歸更是首選了。可是Lasso類須要本身對 $α$

5. LassoCV　　　　

　　　　LassoCV類的損失函數和損失函數的優化方法徹底與Lasso類相同，區別在於驗證方法。

　　　　驗證方法：

　　　　LassoCV類對超參數 $α$

　　　　使用場景：　　

　　　　LassoCV類是進行Lasso迴歸的首選。當咱們面臨在一堆高位特徵中找出主要特徵時，LassoCV類更是必選。當面對稀疏線性關係時，LassoCV也很好用。

6. LassoLars

　　　　LassoLars類的損失函數和驗證方法與Lasso類相同，區別在於損失函數的優化方法。

　　　　損失函數的優化方法：

　　　　Lasso迴歸的損失函數優化方法經常使用的有兩種，座標軸降低法和最小角迴歸法。LassoLars類採用的是最小角迴歸法，前面講到的Lasso類採用的是座標軸降低法。　　　

　　　　使用場景：

　　　　LassoLars類須要本身對 $α$

7. LassoLarsCV

　　　　LassoLarsCV類的損失函數和損失函數的優化方法徹底與LassoLars類相同，區別在於驗證方法。

　　　　驗證方法：

　　　　LassoLarsCV類對超參數 $α$

　　　　使用場景：　　

　　　　LassoLarsCV類是進行Lasso迴歸的第二選擇。第一選擇是前面講到LassoCV類。那麼LassoLarsCV類有沒有適用的場景呢？換句話說，用最小角迴歸法何時比座標軸降低法好呢？場景一：若是咱們想探索超參數 $α$

8. LassoLarsIC

　　　　LassoLarsIC類的損失函數和損失函數的優化方法徹底與LassoLarsCV類相同，區別在於驗證方法。

　　　　驗證方法：

　　　　LassoLarsIC類對超參數 $α$

　　　　使用場景：

　　　　從驗證方法能夠看出，驗證 $α$

9. ElasticNet

　　　　損失函數：

　　　　ElasticNet能夠看作Lasso和Ridge的中庸化的產物。它也是對普通的線性迴歸作了正則化，可是它的損失函數既不全是L1的正則化，也不全是L2的正則化，而是用一個權重參數 $ρ$

　　　　 $J (θ) = \frac{1}{2 m} (X θ - Y)^{T} (X θ - Y) + α ρ | | θ | |_{1} + \frac{α (1 - ρ)}{2} | | θ | |_{2}^{2}$

　　　　其中 $α$

　　　　損失函數的優化方法：

　　　　ElasticNet迴歸的損失函數優化方法經常使用的有兩種，座標軸降低法和最小角迴歸法。ElasticNet類採用的是座標軸降低法。

　　　　驗證方法：

　　　　ElasticNet類並無用到交叉驗證之類的驗證方法，和Lasso類相似。須要咱們本身把數據集分紅訓練集和測試集，須要本身設置好超參數 $α$

　　　　使用場景：

　　　　ElasticNet類須要本身對 $α$

10. ElasticNetCV

　　　　ElasticNetCV類的損失函數和損失函數的優化方法徹底與ElasticNet類相同，區別在於驗證方法。

　　　　驗證方法：

　　　　ElasticNetCV類對超參數 $α$

　　　　使用場景：

　　　　ElasticNetCV類用在咱們發現用Lasso迴歸太過（太多特徵被稀疏爲0），而用Ridge迴歸又正則化的不夠（迴歸係數衰減的太慢）的時候。通常不推薦拿到數據就直接就上ElasticNetCV。

11. OrthogonalMatchingPursuit

　　　　損失函數：

　　　　OrthogonalMatchingPursuit（OMP）算法和普通的線性迴歸損失函數的區別是增長了一個限制項，來限制迴歸係數中非0元素的最大個數。造成了一個全新的損失函數以下：

　　　　 $J (θ) = \frac{1}{2} (X θ - Y)^{T} (X θ - Y)$

　　　　subject to $| | θ | |_{0} \leq n_{n o n - z e r o - c o e f s}$

　　　　損失函數的優化方法：　　　

　　　　OrthogonalMatchingPursuit類使用前向選擇算法來優化損失函數。它是最小角迴歸算法的縮水版。雖然精度不如最小角迴歸算法，可是運算速度很快。

　　　　驗證方法：

　　　　OrthogonalMatchingPursuit類並無用到交叉驗證之類的驗證方法，和Lasso類相似。須要咱們本身把數據集分紅訓練集和測試集，須要本身選擇限制參數 $n_{n o n - z e r o - c o e f s}$

　　　　使用場景：

　　　　OrthogonalMatchingPursuit類須要本身選擇 $n_{n o n - z e r o - c o e f s}$

12. OrthogonalMatchingPursuitCV

　　　　OrthogonalMatchingPursuitCV類的損失函數和損失函數的優化方法徹底與OrthogonalMatchingPursuit類相同，區別在於驗證方法。

　　　　驗證方法：

　　　　OrthogonalMatchingPursuitCV類使用交叉驗證，在S折交叉驗證中以MSE最小爲標準來選擇最好的 $n_{n o n - z e r o - c o e f s}$

　　　　使用場景：

　　　　OrthogonalMatchingPursuitCV類一般用在稀疏迴歸係數的特徵選擇上，這點和LassoCV有相似的地方。不過因爲它的損失函數優化方法是前向選擇算法，精確度較低，通常狀況不是特別推薦用，用LassoCV就夠，除非你對稀疏迴歸係數的精確個數很在乎，那能夠考慮用OrthogonalMatchingPursuitCV。