說說xgboost算法

時間 2019-11-09

標籤說說 xgboost 算法简体版

原文原文鏈接

　　xgboost算法最近真是愈來愈火，趁着這個浪頭，咱們在最近一次的精準營銷活動中，也使用了xgboost算法對某產品簽約行爲進行預測和營銷，取得了不錯的效果。說到xgboost，不得不說它的兩大優點，一是準確率高，此次營銷模型的AUC達到了94%；二是訓練速度快，在幾十萬樣本集，幾十個特徵的狀況下，1分鐘就能夠訓練完畢。究竟是什麼緣由使得這門武功又快又準？下面就來簡單分析一下。算法

　　Xgboost的全稱是Extreme Gradient Boosting，它是由華盛頓大學的陳天奇於2014年所創，因爲它的高精度和高效率，在近幾年的算法比賽中被普遍應用並取得了很好的成績，大放異彩。xgboost能夠看做在決策樹和GBDT的基礎上進化而來的，這個過程簡略表示以下：多線程

一、決策樹(Decision Tree)
決策樹的優勢是解釋性強、簡單、速度快，缺點是模型不穩定、對特徵純度依賴高，是最簡單的模型。函數

二、GBDT(Gradient Boosting Decision Tree)性能

由於單個決策樹的表達能力、範化能力和精度有限，因此GBDT引入了複合樹和增量學習的概念。與隨機森林類似，GBDT也是由多個CART樹組合造成一個最終分類器。在GBDT生成樹的時候，每棵樹沿着前一棵樹偏差減少的梯度方向進行訓練。舉例來講，一個手機的價格100元，用GBDT進行建模，第一棵樹擬合結果是90元，第二棵樹是8元，第三棵樹是2元，每一棵新生成的樹都使得模型的誤差愈來愈小，三棵樹級聯起來造成最終的模型。xgboost的g也體如今這個地方。學習

舉個原論文中的栗子，判斷一我的是否使用電腦？優化

如圖很好地解釋了複合樹和增量學習的概念，經過這兩點，GBDT的範化能力和精度比決策樹有了大幅提升。spa

三、Xgboost線程

Xgboost在GBDT的基礎上又進行了大幅改進，算法的綜合性能有飛躍式的提升，與GBDT相比，Xgboost的優勢主要體現精度高、速度快、可擴展性高、防止過擬合這幾點，下面逐條分析。blog

（1）精度高內存

Xgboost的損失函數用到了二階導數信息，而GBDT只用到一階；

在大多數狀況，數據集都沒法避免出現null值的狀況，從而致使梯度稀疏，在這種狀況下，xgboost爲損失函數指定了默認的梯度方向，間接提高了模型精度和速度。

（2）速度快

Xgboost在生成樹的最佳分割點時，放棄了貪心算法，而是採用了一種從若干備選點中選擇出最優分割點的近似算法，並且能夠多線程搜索最佳分割點。Xgboost還以塊爲單位優化了特徵在內存中的存取，解決了Cache-miss問題，間接提升了訓練效率。根據論文所說，經過這些方法優化以後，xgboost的訓練速度比scikit-learn快40倍。

（3）可擴展性高

GBDT的基分類器是CART，而xgboost的基分類器支持CART，Linear，LR；

Xgboost的目標函數支持linear、logistic、softmax等，能夠處理迴歸、二分類，多分類問題。另外，Xgboost還能夠自定義損失函數。

（4）防止過擬合

xgboost在損失函數里加入了正則項，下降模型的方差，使模型更簡單，防止過擬合，還能自動處理one-hot特徵，可是one-hot會增長內存消耗，增長訓練時間，陳天奇建議one-hot類別數量在[0, 100]範圍內使用；

xgboost在每一輪迭代時爲每棵樹增長一個權重，以此來縮減個別樹的影響力；

xgboost還支持特徵的下采樣，相似於隨機森林，也能夠防止過擬合，而且提升速度，不過這個功能在當前版本沒有實現。

Xgboost的優缺點：

每門武功都有本身的優缺點，xgboost也不例外，這裏我用隨機森林做爲對比，從正反兩個角度來解釋一下這兩種算法的區別。xgboost適用於高誤差，低方差的訓練集。而隨機森林適用於高方差，低誤差的訓練集，兩者是決策樹進化的兩個方向。

Xgboost的思想是增量學習，經過樹的級聯不斷修正誤差，方差較大的數據和異常值會對模型形成必定的影響。而隨機森林的思想是bagging，樹與樹之間互相獨立，經過屢次有放回的採樣，而後全部樹共同投票，以此下降模型的方差，兩者有所區別。從正面來講，對於誤差大的訓練集，隨機森林必須訓練到20層樹的深度才能達到的準確率，xgboost只需幾層樹就能達到，由於隨機森林依賴的樹的深度下降誤差，xgboost經過幾個樹的級聯就把誤差輕鬆修正了。從反面來講，對於方差大的訓練集，隨機森林能夠輕鬆擬合，xgboost就不容易擬合好，同理再也不贅述。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。