scikit-learn 邏輯迴歸類庫使用小結

時間 2019-11-07

標籤 scikit learn 邏輯迴歸使用小結简体版

原文原文鏈接

以前在邏輯迴歸原理小結這篇文章中，對邏輯迴歸的原理作了小結。這裏接着對scikit-learn中邏輯迴歸類庫的個人使用經驗作一個總結。重點講述調參中要注意的事項。html

1、概述

　　　　在scikit-learn中，與邏輯迴歸有關的主要是這3個類。LogisticRegression， LogisticRegressionCV 和logistic_regression_path。其中LogisticRegression和LogisticRegressionCV的主要區別是LogisticRegressionCV使用了交叉驗證來選擇正則化係數C。而LogisticRegression須要本身每次指定一個正則化係數。除了交叉驗證，以及選擇正則化係數C之外， LogisticRegression和LogisticRegressionCV的使用方法基本相同。算法

　　　　logistic_regression_path類則比較特殊，它擬合數據後，不能直接來作預測，只能爲擬合數據選擇合適邏輯迴歸的係數和正則化係數。主要是用在模型選擇的時候。通常狀況用不到這個類，因此後面再也不講述logistic_regression_path類。微信

　　　　此外，scikit-learn裏面有個容易讓人誤解的類RandomizedLogisticRegression,雖然名字裏有邏輯迴歸的詞，可是主要是用L1正則化的邏輯迴歸來作特徵選擇的，屬於維度規約的算法類，不屬於咱們常說的分類算法的範疇。dom

　　　　後面的講解主要圍繞LogisticRegression和LogisticRegressionCV中的重要參數的選擇來來展開，這些參數的意義在這兩個類中都是同樣的。函數

2、正則化選擇參數：penalty

　　　　LogisticRegression和LogisticRegressionCV默認就帶了正則化項。penalty參數可選擇的值爲"l1"和"l2".分別對應L1的正則化和L2的正則化，默認是L2的正則化。post

　　　　在調參時若是咱們主要的目的只是爲了解決過擬合，通常penalty選擇L2正則化就夠了。可是若是選擇L2正則化發現仍是過擬合，即預測效果差的時候，就能夠考慮L1正則化。另外，若是模型的特徵很是多，咱們但願一些不重要的特徵係數歸零，從而讓模型係數稀疏化的話，也可使用L1正則化。測試

　　　　penalty參數的選擇會影響咱們損失函數優化算法的選擇。即參數solver的選擇，若是是L2正則化，那麼4種可選的算法{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’}均可以選擇。可是若是penalty是L1正則化的話，就只能選擇‘liblinear’了。這是由於L1正則化的損失函數不是連續可導的，而{‘newton-cg’, ‘lbfgs’,‘sag’}這三種優化算法時都須要損失函數的一階或者二階連續導數。而‘liblinear’並無這個依賴。優化

　　　　具體使用了這4個算法有什麼不一樣以及有什麼影響咱們下一節講。rest

3、優化算法選擇參數：solver

　　　　solver參數決定了咱們對邏輯迴歸損失函數的優化方法，有4種算法能夠選擇，分別是：htm

　　　　a) liblinear：使用了開源的liblinear庫實現，內部使用了座標軸降低法來迭代優化損失函數。

　　　　b) lbfgs：擬牛頓法的一種，利用損失函數二階導數矩陣即海森矩陣來迭代優化損失函數。

　　　　c) newton-cg：也是牛頓法家族的一種，利用損失函數二階導數矩陣即海森矩陣來迭代優化損失函數。

　　　　d) sag：即隨機平均梯度降低，是梯度降低法的變種，和普通梯度降低法的區別是每次迭代僅僅用一部分的樣原本計算梯度，適合於樣本數據多的時候。

　　　　從上面的描述能夠看出，newton-cg, lbfgs和sag這三種優化算法時都須要損失函數的一階或者二階連續導數，所以不能用於沒有連續導數的L1正則化，只能用於L2正則化。而liblinear通吃L1正則化和L2正則化。

　　　　同時，sag每次僅僅使用了部分樣本進行梯度迭代，因此當樣本量少的時候不要選擇它，而若是樣本量很是大，好比大於10萬，sag是第一選擇。可是sag不能用於L1正則化，因此當你有大量的樣本，又須要L1正則化的話就要本身作取捨了。要麼經過對樣本採樣來下降樣本量，要麼回到L2正則化。

　　　　從上面的描述，你們可能以爲，既然newton-cg, lbfgs和sag這麼多限制，若是不是大樣本，咱們選擇liblinear不就好了嘛！錯，由於liblinear也有本身的弱點！咱們知道，邏輯迴歸有二元邏輯迴歸和多元邏輯迴歸。對於多元邏輯迴歸常見的有one-vs-rest(OvR)和many-vs-many(MvM)兩種。而MvM通常比OvR分類相對準確一些。鬱悶的是liblinear只支持OvR，不支持MvM，這樣若是咱們須要相對精確的多元邏輯迴歸時，就不能選擇liblinear了。也意味着若是咱們須要相對精確的多元邏輯迴歸不能使用L1正則化了。

　　　　具體OvR和MvM有什麼不一樣咱們下一節講。

4、分類方式選擇參數：multi_class

　　　　multi_class參數決定了咱們分類方式的選擇，有 ovr和multinomial兩個值能夠選擇，默認是 ovr。

　　　　ovr即前面提到的one-vs-rest(OvR)，而multinomial即前面提到的many-vs-many(MvM)。若是是二元邏輯迴歸，ovr和multinomial並無任何區別，區別主要在多元邏輯迴歸上。

　　　　OvR的思想很簡單，不管你是多少元邏輯迴歸，咱們均可以看作二元邏輯迴歸。具體作法是，對於第K類的分類決策，咱們把全部第K類的樣本做爲正例，除了第K類樣本之外的全部樣本都做爲負例，而後在上面作二元邏輯迴歸，獲得第K類的分類模型。其餘類的分類模型得到以此類推。

　　　　而MvM則相對複雜，這裏舉MvM的特例one-vs-one(OvO)做講解。若是模型有T類，咱們每次在全部的T類樣本里面選擇兩類樣本出來，不妨記爲T1類和T2類，把全部的輸出爲T1和T2的樣本放在一塊兒，把T1做爲正例，T2做爲負例，進行二元邏輯迴歸，獲得模型參數。咱們一共須要T(T-1)/2次分類。

　　　　從上面的描述能夠看出OvR相對簡單，但分類效果相對略差（這裏指大多數樣本分佈狀況，某些樣本分佈下OvR可能更好）。而MvM分類相對精確，可是分類速度沒有OvR快。

　　　　若是選擇了ovr，則4種損失函數的優化方法liblinear，newton-cg, lbfgs和sag均可以選擇。可是若是選擇了multinomial,則只能選擇newton-cg, lbfgs和sag了。

5、類型權重參數： class_weight

　　　　class_weight參數用於標示分類模型中各類類型的權重，能夠不輸入，即不考慮權重，或者說全部類型的權重同樣。若是選擇輸入的話，能夠選擇balanced讓類庫本身計算類型權重，或者咱們本身輸入各個類型的權重，好比對於0,1的二元模型，咱們能夠定義class_weight={0:0.9, 1:0.1}，這樣類型0的權重爲90%，而類型1的權重爲10%。

　　　　若是class_weight選擇balanced，那麼類庫會根據訓練樣本量來計算權重。某種類型樣本量越多，則權重越低，樣本量越少，則權重越高。

　　　　那麼class_weight有什麼做用呢？在分類模型中，咱們常常會遇到兩類問題：

　　　　第一種是誤分類的代價很高。好比對合法用戶和非法用戶進行分類，將非法用戶分類爲合法用戶的代價很高，咱們寧願將合法用戶分類爲非法用戶，這時能夠人工再甄別，可是卻不肯將非法用戶分類爲合法用戶。這時，咱們能夠適當提升非法用戶的權重。

　　　　第二種是樣本是高度失衡的，好比咱們有合法用戶和非法用戶的二元樣本數據10000條，裏面合法用戶有9995條，非法用戶只有5條，若是咱們不考慮權重，則咱們能夠將全部的測試集都預測爲合法用戶，這樣預測準確率理論上有99.95%，可是卻沒有任何意義。這時，咱們能夠選擇balanced，讓類庫自動提升非法用戶樣本的權重。

　　　　提升了某種分類的權重，相比不考慮權重，會有更多的樣本分類劃分到高權重的類別，從而能夠解決上面兩類問題。

　　　　固然，對於第二種樣本失衡的狀況，咱們還能夠考慮用下一節講到的樣本權重參數： sample_weight，而不使用class_weight。sample_weight在下一節講。

6、樣本權重參數： sample_weight

　　　　上一節咱們提到了樣本不失衡的問題，因爲樣本不平衡，致使樣本不是整體樣本的無偏估計，從而可能致使咱們的模型預測能力降低。遇到這種狀況，咱們能夠經過調節樣本權重來嘗試解決這個問題。調節樣本權重的方法有兩種，第一種是在class_weight使用balanced。第二種是在調用fit函數時，經過sample_weight來本身調節每一個樣本權重。

　　　　在scikit-learn作邏輯迴歸時，若是上面兩種方法都用到了，那麼樣本的真正權重是class_weight*sample_weight.

　　　　以上就是scikit-learn中邏輯迴歸類庫調參的一個小結，還有些參數好比正則化參數C（交叉驗證就是 Cs），迭代次數max_iter等，因爲和其它的算法類庫並無特別不一樣，這裏很少累述了。

（歡迎轉載，轉載請註明出處。歡迎溝通交流：微信：nickchen121）