基於決策樹的分類算法

背景:我的對挖掘算法不太瞭解,學習過程當中看到有C4.5算法、CART算法等,看起來都是同樣的決策樹,不知其區別,因此網絡上搜索學習,備忘以下:
 
從決策樹開始介紹,該博文不錯: 算法雜貨鋪——分類算法之決策樹(Decision tree)
 
決策樹在決策過程當中,選擇根節點屬性的度量方法(分裂規則)有多種,通常使用自頂向下遞歸分治法,並採用不回溯的貪心算法;
咱們看到的各類決策樹算法,其實主要是由於採用的度量方式的不一樣而獲得的。
下面介紹基於不一樣的度量方法的三種算法;
     信息增益越大越好(ID3算法)、信息增益率越大越好(C4.5算法)、Gini增益越大越好(CART算法)
 
首先須要瞭解下信息熵、信息增益的概念,由於度量方法是基於此的;請見: 信息熵(Entropy)、信息增益(Information Gain) 
這些算法基於 奧卡姆剃刀原理(若無必要,勿增實體),即越是小型的決策樹越優於大的決策樹;
 
ID3算法請見: 概括決策樹ID3(Java實現)
CART算法請見: CART算法簡介


--------------------
CART 分類迴歸樹Classification and Regreesion Tree
相關文章
相關標籤/搜索