【面試考】【入門】決策樹算法ID3，C4.5和CART

時間 2020-05-24

標籤面試考入門決策樹算法 id3 c4.5 cart 欄目 C&C++ 简体版

原文原文鏈接

關於決策樹的purity的計算方法能夠參考：
決策樹purity/基尼係數/信息增益 Decision Trees
若是有不懂得能夠私信我，我給你講。html

ID3

用下面的例子來理解這個算法：算法

下圖爲咱們的訓練集。總共有14個訓練樣本，每一個樣本中有4個關於天氣的屬性，這些屬性都是標稱值。輸出結果只有2個類別，玩(yes)或者不玩(no)：
數據庫

首先先計算整個數據集的熵Entropy：機器學習

由於整個數據集只有兩個類別，他們的分佈機率分別是\(\frac{9}{14}\)和\(\frac{5}{14}\)，因此根據Entropy是：\(Entropy(S)=-(\frac{9}{14}*log_2(\frac{9}{14})+\frac{5}{14}*log_2(\frac{5}{14}))=0.94\)

而後咱們要考慮根據哪個屬性進行分裂，假設根據Outlook屬性進行分裂，咱們能夠發現Outlook中有三個值，分別是：Sun,Rain,Overcast，分別計算他們的熵：
\(Entropy(S_{sun})=-(\frac{2}{5}*log_2(\frac{2}{5})+\frac{3}{5}*log_2(\frac{3}{5}))=0.971\)
\(Entropy(S_{overcast})=-(\frac{4}{4}*log_2(\frac{4}{4})+\frac{0}{4}*log_2(\frac{0}{4}))=0\)
\(Entropy(S_{rain})=-(\frac{3}{5}*log_2(\frac{3}{5})+\frac{2}{5}*log_2(\frac{2}{5}))=0.971\)
計算完三個Entropy後，來計算信息增益Information Gain：
\(IG(S,Outlook)=Entropy(S)-(\frac{5}{14}*Entropy(S_{sun})+\frac{5}{14}*Entropy(S_{overcast})+\frac{5}{14}*Entropy(S_{rain}))=0.246\)學習

用一樣的道理，咱們能夠求出來剩下的幾個特徵的信息增益：
\(IG(S,Wind)=0.048\)
\(IG(S,Temperature)=0.0289\)
\(IG(S,Humidity)=0.1515\)
由於outlook這個做爲劃分的話，能夠獲得最大的信息增益，因此咱們就用這個屬性做爲決策樹的根節點，把數據集分紅3個子集，而後再在每個子集中重複上面的步驟，就會獲得下面這樣的決策樹：
spa

ID3的缺點

若是樣本中存在一個特徵，這個特徵中全部值都不相同（比方說是連續值的特徵），這樣能夠想一想的出假設用這個特徵做爲劃分，那麼信息增益必定是很是大的，由於全部的劃分中都只會包含一個樣本；對於具備不少值的屬性它是很是敏感的，例如，若是咱們數據集中的某個屬性值對不一樣的樣本基本上是不相同的，甚至更極端點，對於每一個樣本都是惟一的，若是咱們用這個屬性來劃分數據集，它會獲得很大的信息增益，可是，這樣的結果並非咱們想要的。
ID3不能處理連續值屬性；
ID3算法不能處理具備缺失值的樣本；
很是容易過擬合。

C4.5

對於有不少值得特徵，ID3是很是敏感的，而C4.5用增益率Gain ratio解決了這個問題，先定義內在價值Intrinsic Value：.net

\[IV(S,a)=-\sum_{v\in values(a)}{\frac{|x\in S|value(x,a)=v|}{|S|}*log_2(\frac{|x\in S|value(x,a)=v|}{|S|})} \]

這個公式怎麼理解呢？orm

S就是數據集樣本，\(|S|\)就是樣本數量；
a是某一個特徵，比方說Outlook或者是Wind,而後\(v\in values(a)\)就是v就是a這個特徵中的某一個值；
\(|x\in S|value(x,a)=v|\)這個就是某一個特徵a是v的樣本數量；
而後決策樹以前使用信息增益Information Gain來做爲分裂特徵的選擇，如今使用增益率IG rate：

\[IGR(S,a)=\frac{IG(S,a)}{IV(S,a)} \]

可想而知，若是存在一個特徵，比方說一個學生的學號（每個學生的學號都不相同），若是用ID3選擇學號進行分裂，那麼必定能夠達到很是大的信息增益，可是其實這是無心義過擬合的行爲。使用C4.5的話，咱們要計算IGR，這個學號的特徵的內在價值IV是很是大的，因此IGR並不會很大，因此模型就不會選擇學號進行分裂。htm

此外。C4.5能夠處理連續值得劃分，下面，我舉例說明一下它的解決方式。假設訓練集中每一個樣本的某個屬性爲：{65, 70, 70, 70, 75, 78, 80, 80, 80, 85, 90, 90, 95, 96}。如今咱們要計算這個屬性的信息增益。咱們首先要移除重複的值並對剩下的值進行排序：{65, 70, 75, 78, 80, 85, 90, 95, 96}。接着，咱們分別求用每一個數字拆分的信息增益（好比用65作拆分：用≤65和>65≤65和>65作拆分，其它數字同理），而後找出使信息增益得到最大的拆分值。所以，C4.5算法很好地解決了不能處理具備連續值屬性的問題。blog

C4.5如何處理缺失值

若是是訓練數據中出現了缺失數據，那麼就會考慮這個缺失數據全部可能的值。比方說一開始的數據庫中，D1的Outlook變成了缺失值，那麼D1的Outlook就會有\(\frac{4}{13}\)的機率是Sun，有\(\frac{4}{13}\)的機率是Overcast，有\(\frac{5}{13}\)的機率是Rain，而後其實也能夠理解爲這個樣本就會變成3個樣本，這三個樣本有着不一樣的權重。
若是是在預測數據中出現了缺失數據，那麼一樣的，認爲這個數據的這個缺失數據多是任何可能的值，這個機率就是看決策樹中Outlook劃分的子集的樣本數量。這個地方可能有點難懂，不理解的能夠看這個博文：
機器學習筆記（7）——C4.5決策樹中的缺失值處理

C4.5對決策樹的剪枝處理：
有兩種剪枝處理方法，一個是預剪枝，一個是後剪枝，二者都是比較驗證集精度，區別在於：

預剪枝：從上到下進行剪枝，若是精度沒有提高，那麼就剪掉，這個處理在訓練模型的過程當中進行；
後剪枝：從下到上進行剪枝，若是剪掉精度能夠提高，就剪掉，這個處理過程是在模型訓練結束以後再進行的。
一般來講後者會比前者保留更多的分支，欠擬合的風險小，可是訓練時間的開銷會大一些。
更具體地內容推薦這篇博文，講的清晰易懂(沒有必要看懂這個博文中的Python實現過程，畢竟如今sklearn庫中都封裝好了)：
機器學習筆記（6）——C4.5決策樹中的剪枝處理和Python實現