機器學習-決策樹

學習知識的步驟:

看書、摘抄、理解  ---------- 作題、實踐、檢驗 ---------- 「大媽級」語言講述

參考文章:算法

《機器學習-周志華》機器學習

《統計學習方法-李航》學習

《機器學習實戰-Peter Harrington》測試

《Pattern Recognition and Machine Learning》3d

一、決策樹介紹:

選擇全部特徵屬性中信息熵最大的特徵,從根節點進行測試,根據測試結果將實例分配到其子節點,每個子節點對應該特徵的取值,如此遞歸對實例進行測試並分配,直至到達葉節點,最後將實例分類到葉節點中。blog

根節點:包含樣本全集遞歸

葉節點:對應決策結果,即對應的實例分類it

其餘節點:對應特徵屬性測試io

2、優缺點:

優勢:學習方法

1.模型具備可讀性,分類速度快,計算複雜度不高

2.能夠處理連續和種類字段

3.無需領域知識以及參數假設

4.適合高維數據

5.對中間值的缺失不敏感

6.能夠同時處理標稱型和數值型數

缺點:

1.容易產生過擬合

2.容易忽略數據集中屬性的相互關聯

3.對於那些各種別樣本數量不一致的數據,在決策樹中,進行特徵屬性劃分時,不一樣的斷定準則會帶來不一樣的屬性選擇傾向。即因不一樣的算法獲得的結果可能不一樣

三、香農熵:

《Pattern Recognition and Machine Learning》p48頁,講述了香農熵公式的由來。

3.1 經驗熵

對數據集進行分類的不肯定性H(D)稱爲經驗熵,其機率通常由數據估計(特別是極大似然估計)獲得。

3.2 條件經驗熵

 特徵屬性A在給定條件下對數據集分類的不肯定性H(D|A),其機率通常由數據估計(特別是極大似然估計)獲得。

四、ID3算法:

4.1 信息增益

五、C4.5算法:

5.1 信息增益比

六、CART算法:

6.1 迴歸樹

平方最小化準則

6.2 分類樹

 基尼指數最小化準則

相關文章
相關標籤/搜索