參考文章:算法
《機器學習-周志華》機器學習
《統計學習方法-李航》學習
《機器學習實戰-Peter Harrington》測試
《Pattern Recognition and Machine Learning》3d
選擇全部特徵屬性中信息熵最大的特徵,從根節點進行測試,根據測試結果將實例分配到其子節點,每個子節點對應該特徵的取值,如此遞歸對實例進行測試並分配,直至到達葉節點,最後將實例分類到葉節點中。blog
根節點:包含樣本全集遞歸
葉節點:對應決策結果,即對應的實例分類it
其餘節點:對應特徵屬性測試io
優勢:學習方法
1.模型具備可讀性,分類速度快,計算複雜度不高
2.能夠處理連續和種類字段
3.無需領域知識以及參數假設
4.適合高維數據
5.對中間值的缺失不敏感
6.能夠同時處理標稱型和數值型數
缺點:
1.容易產生過擬合
2.容易忽略數據集中屬性的相互關聯
3.對於那些各種別樣本數量不一致的數據,在決策樹中,進行特徵屬性劃分時,不一樣的斷定準則會帶來不一樣的屬性選擇傾向。即因不一樣的算法獲得的結果可能不一樣
《Pattern Recognition and Machine Learning》p48頁,講述了香農熵公式的由來。
對數據集進行分類的不肯定性H(D)稱爲經驗熵,其機率通常由數據估計(特別是極大似然估計)獲得。
特徵屬性A在給定條件下對數據集分類的不肯定性H(D|A),其機率通常由數據估計(特別是極大似然估計)獲得。