《統計學習方法》筆記五 決策樹

本系列筆記內容參考來源爲李航《統計學習方法》算法

知識概要

決策樹模型

分類決策樹模型是一種描述對實例進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種類型:內部結點和葉結點。內部結點表示一個特徵或屬性,葉結點表示一個類。函數

決策樹與if-then規則學習

能夠把決策樹當作一個if-then規則的集合,則應知足互斥而且完備,即每一條實例都被一條路徑或一條規則所覆蓋,並且只被一條路徑或一條規則所覆蓋。測試

決策樹與條件機率分佈spa

決策樹還表示給定特徵條件下類的條件機率分佈,定義在特徵空間的一個劃分上,將特徵空間劃分爲互不相交的單元或區域,並在每一個單元定義一個類的機率分佈就構成了一個條件機率分佈。決策樹的一條路徑對應於劃分中的一個單元。決策樹所表示的條件機率分佈由各個單元給定條件下類的條件機率分佈組成。設X爲表示特徵的隨機變量,Y爲表示類的隨機變量,則條件機率分佈表示爲P(Y|X)。X取值於給定劃分下單元的集合,Y取值於類的集合。3d

特徵選擇

包括如下blog

  • 信息增益
  • 信息增益比
  • 基尼指數

特徵選擇在於選取對訓練數據具備分類能力的特徵,若是利用一個特徵進行分類的結果與隨機分類的結果沒有很大差異,則稱這個特徵是沒有分類能力的。一般特徵選擇的準則是信息增益信息增益比遞歸

信息增益

1 熵數學

熵表示隨機變量不肯定性的度量,熵越大,隨機變量的不肯定性越大。設X是一個取有限個值的離散隨機變量,機率分佈爲it

P(X = xi) = pi,  i = 1,2,...n

則隨機變量X的熵定義爲

以2或e爲底,此時熵的單位分別稱做比特(bit)或納特(nat),熵只依賴X的分佈,與X的取值無關,因此也可記爲H(p)

2 條件熵

H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不肯定性 

定義爲X給定條件下Y的條件機率分佈的熵對X的數學指望:

當熵和條件熵中的機率由數據估計(特別是極大似然估計)獲得時,所對應的熵與條件熵分別稱爲經驗熵和經驗條件熵。

信息增益表示得知特徵X的信息而使得類Y的信息的不肯定性減小的程度。

 

 

         

信息增益比

當訓練數據集的經驗熵大的時候,信息增益值偏大,反之偏小,使用信息增益比校訂。

基尼指數

CART中生成分類樹中使用,用基尼指數選擇最優特徵,同時決定該特徵的最優二值且分點。

 

決策樹的生成

ID3算法

ID3算法只有樹的生成,因此該算法生成的樹容易產生過擬合。

C4.5

與ID3類似,在生成過程當中,用信息增益比來選擇特徵

決策樹的剪枝

決策樹生成每每對訓練數據分類很準確,但對未知的測試數據的分類卻沒有那麼準確,即過擬合。過擬合的緣由在於學習時過多的考慮如何提升對訓練數據的正確分類,從而構建出過於複雜的決策樹,解決方法是考慮決策樹的複雜度,對已生成的樹進行簡化,成爲剪枝(pruning),具體指從生成的樹上裁掉一些子樹或葉結點,並將其根結點或父結點做爲新的葉結點。

設樹T的葉結點個數爲| T | , t 是樹T的葉結點有 Nt 個樣本點,其中k類的樣本點有 Ntk 個,k = 1, 2, · · · , K,Ht(T) 爲葉結點 t 上的經驗熵,a ≥ 0爲參數,則決策樹學習的損失函數能夠定義爲

CART算法

可用於分類也可用於迴歸,給定輸入隨機變量X條件下輸出隨機變量Y的條件機率分佈的學習方法。CART假設決策樹是二叉樹,內部結點特徵的取值是「是」和「否」,左分支取值爲是,右取值爲否,等價於遞歸的二分每一個特徵,將輸入空間即特徵空間劃分爲有限個單元,並在這些單元上肯定預測的機率分佈,也就是在輸入給定的條件下輸出的條件機率分佈。

由決策樹生成和剪枝兩個步驟組成。

迴歸樹生成

一個迴歸樹對應輸入空間(即特徵空間)的一個劃分以及在劃分的單元上的輸出值,假設已將輸入空間劃分爲M個單元,R1,...RM,並在每一個單元RM上有一個固定的輸出值Cm,則迴歸樹模型可表示爲

 

如何劃分,選擇第j個變量和它的取值s,做爲切分變量和且分點,並定義兩個區域

而後尋找足有切分變量j和最優切分點s

對固定輸入變量j可找到最優切分點s

遍歷全部輸入變量,找到最優的切分變量j,構成一個對(j,s),依次將輸入空間劃分紅兩個區域,對每一個區域重複上述步驟,直到知足中止條件爲止。這樣的迴歸樹稱爲最小二乘迴歸樹。

 

分類樹生成

輸入:訓練數據集D,中止計算條件

輸出:CART決策樹

1)設結點的訓練數據集爲D,計算現有特徵對該數據集的基尼指數。此時,對每個特徵A,對其可能取的每一個值a,根據樣本點對A = a的測試爲"是"或者「否」將D分割爲D1和D2兩部分,計算其基尼係數。

2)在全部可能的特徵A以及他們全部可能的切分點a中,選擇基尼係數最⼩小的特徵及其對應的切分點做爲最優特徵與最優切分點。依最優特徵與最優切分點,從現結點⽣生成兩個⼦子結點,將訓練數據集依特徵分配到兩個⼦子結點中去。

3)對兩個⼦子結點遞歸地調⽤用上述兩個步驟,直⾄至滿⾜足停⽌止條件。

4)⽣生成CART決策樹

CART剪枝

CART剪枝算法從「徹底⽣生⻓長」的決策樹的底端減去⼀一些⼦子樹,使決策樹變⼩小(模型變簡單),從⽽而可以對未知數據有更更準確的預測

相關文章
相關標籤/搜索