數據挖掘十大算法之決策樹詳解（1）

時間 2019-12-19

標籤數據挖掘十大算法決策樹詳解简体版

原文原文鏈接

在2006年12月召開的 IEEE 數據挖掘國際會議上（ICDM， International Conference on Data Mining），與會的各位專家選出了當時的十大數據挖掘算法（ top 10 data mining algorithms ），能夠參見文獻【1】。本博客已經介紹過的位列十大算法之中的算法包括：node

本文主要介紹機器學習中的決策樹模型。決策樹模型是一類算法的集合，在數據挖掘十大算法中，具體的決策樹算法佔有兩席位置，即C4.5和CART算法，本文都會介紹到它們。算法

歡迎關注白馬負金羈的博客 http://blog.csdn.net/baimafujinji，爲保證公式、圖表得以正確顯示，強烈建議你從該地址上查看原版博文。本博客主要關注方向包括：數字圖像處理、算法設計與分析、數據結構、機器學習、數據挖掘、統計分析方法、天然語言處理。數據結構

從分類問題開始

分類（Classification）任務就是肯定對象屬於哪一個預約義的目標類。分類問題不只是一個廣泛存在的問題，並且是其餘更加複雜的決策問題的基礎，更是機器學習和數據挖掘技術中最龐大的一類算法家族。咱們前面介紹過的不少算法（例如SVM，樸素貝葉斯等）均可以用來解決分類問題。做爲本文的開始，咱們首先來簡單回顧一下什麼是分類。dom

假設咱們如今有以下表所示的一個屬性集（feature set），它收集了幾個病患的症狀和對應的病症。症狀包括頭疼的程度、咳嗽的程度、體溫以及咽喉是否腫痛，這些症狀（feature）的組合就對應一個病症的分類（Cold 仍是 Flu）。機器學習

分類問題的本質就是當給定這樣一個數據集後，要求咱們訓練出（或創建）一個模型學習

分類問題的類別數目能夠是兩類也能夠是多類。二分類問題是最簡單的分類問題，而多分類問題模型能夠在二分類模型的基礎上進行構建。咱們在前面文章中一直使用的鳶尾花數據集就是一個典型的多分類問題，問題的最終目標是判斷給定一朵花，它應該屬於setosa、versicolor和virginica中的哪一類。測試

決策樹基礎

決策樹是一種用於對實例進行分類的樹形結構。決策樹由節點（node）和有向邊（directed edge）組成。節點的類型有兩種：內部節點和葉子節點。其中，內部節點表示一個特徵或屬性的測試條件（用於分開具備不一樣特性的記錄），葉子節點表示一個分類。大數據

一旦咱們構造了一個決策樹模型，以它爲基礎來進行分類將是很是容易的。具體作法是，從根節點開始，地實例的某一特徵進行測試，根據測試結構將實例分配到其子節點（也就是選擇適當的分支）；沿着該分支可能達到葉子節點或者到達另外一個內部節點時，那麼就使用新的測試條件遞歸執行下去，直到抵達一個葉子節點。當到達葉子節點時，咱們便獲得了最終的分類結果。優化

下圖是一個決策樹的示例（注意咱們僅用了兩個feature就對數據集中的5個記錄實現了準確的分類）： ui

構建決策樹——Hunt算法

Hunt算法是一種採用局部最優策略的決策樹構建算法，它同時也是許多決策樹算法的基礎，包括ID三、C4.5和CART等。該算法的具體執行步驟以下：

在Hunt算法中，經過將訓練記錄相繼劃分紅較純的子集，以遞歸方式創建決策樹。設

爲了演示這方法，咱們選用文獻【2】中的一個例子來加以說明：預測貸款申請者是會按時歸還貸款，仍是會拖欠貸款。對於這個問題，訓練數據集能夠經過考察之前貸款者的貸款記錄來構造。在下圖所示的例子中，每條記錄都包含貸款者的我的信息，以及貸款者是否拖欠貸款的類標號。

該分類問題的初始決策樹只有一個結點，類標號爲「拖欠貨款者＝否」（見圖a），意味大多數貸款者都按時歸還貸款。然而，該樹須要進一步的細化，由於根結點包含兩個類的記錄。根據「有房者」測試條件，這些記錄被劃分爲較小的子集，如圖b所示。接下來，對根結點的每一個子女遞歸地調用Hunt算法。從下圖給出的訓練數據集能夠看出，有房的貸款者都按時償還了貸款，所以，根結點的左子女爲葉結點，標記爲「拖欠貨款者二否」（見圖b)。對於右子女，咱們須要繼續遞歸調用Hunt算法，直到全部的記錄都屬於同一個類爲止。每次遞歸調用所造成的決策樹顯示在圖c和圖d中。

若是屬性值的每種組合都在訓練數據中出現，而且每種組合都具備惟一的類標號，則Hunt 算法是有效的。可是對於大多數實際狀況，這些假設太苛刻了，所以，須要附加的條件來處理如下的狀況：

算法的第二步所建立的子女結點可能爲空，即不存在與這些結點相關聯的記錄。若是沒有一個訓練記錄包含與這樣的結點相關聯的屬性值組合，這種情形就可能發生。這時，該結點成爲葉結點，類標號爲其父結點上訓練記錄中的多數類。
在第二步，若是與

此外，在上面這個算法過程當中，你可能會疑惑：咱們是依據什麼原則來選取屬性測試條件的，例如爲什第一次選擇「有房者」來做爲測試條件。事實上，若是咱們選擇的屬性測試條件不一樣，那麼對於同一數據集來講所創建的決策樹可能相差很大。以下圖所示爲基於前面預測病人是患了Cold仍是Flu的數據集所構建出來的另外兩種狀況的決策樹：

事實上，在構建決策樹時咱們須要關心的問題包括：

How to build optimal Decision Tree?
How to choose attribute values at each decision point (node)?
How to choose number of branches at each node and attribute values for partitioning the data?
When to stop the growth of the tree?

我會在接下來的部分回答上述這些問題。

構建決策樹進階：

構建一棵最優的決策樹是一個NP難問題！因此咱們只能採用一些啓發式策略來解決：

Choose an attribute to partition the data at the node such that each partition is as homogeneous (least impure) as possible. This means we would like to see most of the instances in each partition belonging to as few classes as possible and each partition should be as large as possible.
We can stop the growth of the tree if all the leaf nodes are largely dominated by a single class (that is the leaf nodes are nearly pure).

如今新的問題來了：如何評估節點的Impurity？一般可使用的指標有以下三個（實際應用時，只要選其中一個便可）：

Gini Index
Entropy
Misclassification error

第一個能夠用來評估節點Impurity的指標是Gini係數。對於一個給定的節點

G I N I (t) = 1 - \sum j [p (j | t)] 2

其中，

Maximum value of Gini index = (1 - 1/
Minimum is (0.0) when all records belong to one class, implying most interesting information or most pure or most homogeneous.

說到這裏，咱們插一句題外話（若是你對這部分Background無感能夠跳過）。你在生活中有沒有聽過基尼係數這個名詞？是的，基尼係數原本是經濟學裏的一個概念。基尼係數是1943年美國經濟學家阿爾伯特·赫希曼根據勞倫茨曲線所定義的判斷收入分配公平程度的指標。基尼係數是比例數值，在0和1之間，是國際上用來綜合考察居民內部收入分配差別情況的一個重要分析指標。其具體含義是指，在所有居民收入中，用於進行不平均分配的那部分收入所佔的比例。基尼係數最大爲「1」，最小等於「0」。前者表示居民之間的收入分配絕對不平均，即100%的收入被一個單位的人所有佔有了；然後者則表示居民之間的收入分配絕對平均，即人與人之間收入徹底平等，沒有任何差別。但這兩種狀況只是在理論上的絕對化形式，在實際生活中通常不會出現。所以，基尼係數的實際數值只能介於0～1之間，基尼係數越小收入分配越平均，基尼係數越大收入分配越不平均。國際上一般把0.4做爲貧富差距的警惕線，大於這一數值容易出現社會動盪。

選擇最佳劃分的度量一般是根據劃分後子女結點不純性的程度。不純的程度越低，類分佈就越傾斜。例如，類分佈爲 (0, 1)的結點具備零不純性，而均衡分佈(0.5, 0.5)的結點具備最高的不純性。如今咱們回過頭來看一個具體的計算例子。如今咱們一共有6個records，以二元分類問題不純性度量值的比較爲例，下圖的意思表示有四個節點，而後分別計算了每個節點的GINI係數值（注意決策樹中每個內節點都表示一種分支判斷，也就能夠將6個records分紅幾類，咱們這裏討論的是二元分類因此是分紅兩個子類）：

Δ = I (p a r e n t) - \sum j = 1 k N ( v j ) N I ( v j )

考慮下面這個劃分的例子。假設有兩種方法將數據劃分紅較小的子集。劃分前，Gini係數等於0.5，由於屬於兩個類（C0和C1）的記錄個數相等。若是選擇屬性A來劃分數據，節點

考慮多分類的狀況

標稱屬性能夠產生二元劃分也能夠產生多路劃分，以下圖所示。二元劃分的Gini係數的計算與二元屬性相似。對於車型屬性第一種二元分類，{運動，豪華}的Gini係數是0.4922，而{家用}的Gini係數是0.375。這個劃分的Gini係數加權平均是：

(16 / 20) \times 0.4922 + (4 / 20) \times 0.375 = 0.468

(4 / 20) \times 0.375 + (8 / 20) \times 0 + (8 / 20) \times 0.219 = 0.163

考慮特徵值連續的狀況

考慮下圖所示的例子，其中測試條件「年收入

對第一個候選

對第二個候選

重複這樣的計算，直到算出全部候選的Gini係數值。最佳的劃分點對應於產生最小Gini係數值的點，即

其餘純度測量指標暨劃分標準

正如咱們前面已經提到的，評估節點的Impurity能夠是三個標準中的任何一個。並且咱們已經介紹了Gini係數。

信息熵與信息增益

下面來談談另一個可選的標準：信息熵（entropy）。在信息論中，熵是表示隨機變量不肯定性的度量。熵的取值越大，隨機變量的不肯定性也越大。

設

P (X = x i) = p i, i = 1, 2, \dots, n

H (X) = - \sum i = 1 n p i log p i

H (p) = - \sum i = 1 n p i log p i

H (Y | X) = \sum j = 1 n P (X = x j) H (Y | X = x j)

E n t r o p y (t) = - \sum j p (j | t) log p (j | t)

Maximum
Minimum (0.0) when all records belong to one class, implying most information

仍是來看一個具體的計算例子，以下圖所示（基本狀況與前面介紹Gini係數時的例子相似，咱們再也不贅述）：

G A I N = E n t r o p y (p) - [\sum i = 1 k n i n E n t r o p y ( i ) ]

使用信息增益的一個缺點在於：信息增益的大小是相對於訓練數據集而言的。在分類問題困難時，即訓練數據集的經驗熵比較大時，信息增益會偏大。反之，信息增益會偏小。使用信息增益比（Information gain ratio）能夠對這一問題進行校訂。

S p l i t I N F O = - \sum i = 1 k n i n log n i n

G a i n R a t i o s p l i t = G A I N S p l i t I N F O

分類偏差

給定一個節點

E r r o r (t) = 1 - max i P (i | t)

Maximum
Minimum (0.0) when all records belong to one class, implying most interesting information

話很少說，仍是一個簡單的算例：

下圖給出了二分類模型中，熵、Gini係數、分類偏差的比較狀況。若是咱們採用二分之一熵

咱們最後再來看一個Gini係數和分類偏差對比的例子：

G i n i (N 1) = 1 - (3 / 3) 2 - (0 / 3) 2 = 0

M i s s C l a s s (N 1) = 1 - (3 / 3) = 0

（未完，待續…）

參考文獻

【1】Wu, X., Kumar, V., Quinlan, J.R., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G.J., Ng, A., Liu, B., Philip, S.Y. and Zhou, Z.H., 2008. Top 10 algorithms in data mining. Knowledge and information systems, 14(1), pp.1-37. (http://www.cs.uvm.edu/~icdm/algorithms/10Algorithms-08.pdf）
【2】Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 數據挖掘導論，人民郵電出版社
【3】李航，統計學習方法，清華大學出版社
【4】明尼蘇達大學Prof Vipin Kumar 和墨爾本大學Prof Rao Kotagiri的課程幻燈片材料

若是你對機器學習和數據挖掘感興趣，你還能夠參考個人高能資源帖：
【5】機器學習與數據挖掘網上資源蒐羅
【6】機器學習與數據挖掘的學習路線圖