[ML] Decision Tree & Ensembling Metholds

時間 2019-11-18

標籤 decision tree ensembling metholds 简体版

原文原文鏈接

熱身：分類問題若干策略

SVM, LR, Decision Tree的比較

一樣是分類：SVM、LR、決策樹，三者之間有什麼優劣勢呢？html

答：Are decision tree algorithms linear or nonlinear: nonlinear! 更接近 "神經網絡"。算法

1、與"判別式分類"的比較

Ref：邏輯迴歸，決策樹，支持向量機選擇方案網絡

邏輯迴歸 LR

LR的優點：app

對觀測樣本的機率值輸出
實現簡單高效
多重共線性的問題能夠經過L2正則化來應對
大量的工業界解決方案
支持online learning（我的補充）

LR的劣勢：框架

特徵空間太大時表現不太好
對於大量的分類變量無能爲力
對於非線性特徵須要作特徵變換
依賴全部的樣本數據

支持向量機器 SVM

SVM的優勢：dom

可以處理大型特徵空間
可以處理非線性特徵之間的相互做用
無需依賴整個數據

SVM的缺點：機器學習

當觀測樣本不少時，效率並非很高
有時候很難找到一個合適的核函數

決策樹

決策樹的優勢：函數

直觀的決策規則
能夠處理非線性特徵
考慮了變量之間的相互做用

決策樹的缺點： post

訓練集上的效果高度優於測試集，即過擬合[隨機森林克服了此缺點]
沒有將排名分數做爲直接結果

2、結論

我總結出了一個工做流程來讓你們參考如何決定使用哪一個模型：學習

1. 使用LR試一把總歸不會錯的，至少是個baseline
2. 看看決策樹相關模型例如隨機森林，GBDT有沒有帶來顯著的效果提高，即便最終沒有用這個模型，也能夠用隨機森林的結果來去除噪聲特徵
3. 若是你的特徵空間和觀測樣本都很大，有足夠的計算資源和時間，試試SVM吧，

決策樹算法

Ref: 算法雜貨鋪——分類算法之決策樹(Decision tree)

1、構造決策樹

屬性選擇度量算法有不少，通常使用自頂向下遞歸分治法，並採用不回溯的貪心策略。這裏介紹ID3和C4.5兩種經常使用算法。

使用屬性選擇度量來選擇將元組最好地劃分紅不一樣的類的屬性。所謂決策樹的構造就是進行屬性選擇度量肯定各個特徵屬性之間的拓撲結構。

2、模型參數

官方文檔：https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html

也可用於」迴歸問題「：迴歸樹，模型樹。

決策「森林」

Ensemble method（集成方法），參考博文：機器學習--集成學習（Ensemble Learning）

主流的兩種方式

1、Bootstrap Aggregating (縮寫：Bagging)

Bootstrap 樣本集，「有放回去」的方式。舉個栗子：構造 Random Forest（隨機森林）

(1) 得到 Bootstrap 作爲一個 dataset

(2) 隨機選擇d個特徵

開始訓練一顆樹。

2、Boosting（弱弱變強）

boost算法是基於PAC學習理論（probably approximately correct）而創建的一套集成學習算法(ensemble learning)。

其根本思想在於經過多個簡單的弱分類器，構建出準確率很高的強分類器，PAC學習理論證明了這一方法的可行性。

(1）在每一輪如何改變訓練數據的權值或機率分佈？

經過提升那些在前一輪被弱分類器分錯樣例的權值，減少前一輪分對樣例的權值，來使得分類器對誤分的數據有較好的效果。

【劃分的很差就多重視一點】

(2）經過什麼方式來組合弱分類器？

經過加法模型將弱分類器進行 "線性組合"，好比以下三種方式：

* AdaBoost（Adaptive boosting）算法：剛開始訓練時對每個訓練例賦相等的權重，而後用該算法對訓練集訓練t輪，每次訓練後，對訓練失敗的訓練例賦以較大的權重，也就是讓學習算法在每次學習之後更注意學錯的樣本，從而獲得多個預測函數。

經過擬合殘差的方式逐步減少殘差，將每一步生成的模型疊加獲得最終模型。

# AdaBoost Algorithm
from sklearn.ensemble import AdaBoostClassifier
clf = AdaBoostClassifier()
...
clf.fit(x_train,y_train)
clf.predict(x_test)

* GBDT（Gradient Boost Decision Tree)，每一次的計算是爲了減小上一次的殘差，GBDT在殘差減小（負梯度）的方向上創建一個新的模型。

# Gradient Boosting 
from sklearn.ensemble import GradientBoostingClassifier
clf = GradientBoostingClassifier()
# n_estimators = 100 (default)
# loss function = deviance(default) used in Logistic Regression
clf.fit(x_train,y_train)
clf.predict(x_test)

* XGBoost (Extreme Gradient Boosting)，掀起了一場數據科學競賽的風暴。

# XGBoost 
from xgboost import XGBClassifier
clf = XGBClassifier()
# n_estimators = 100 (default)
# max_depth = 3 (default)
clf.fit(x_train,y_train)
clf.predict(x_test)