決策樹的樣子大概是這個樣子的:
3d
選擇一個特徵做爲根節點,把這個特徵劃分紅兩個孩子節點,每一個孩子節點就是原始數據集的子集,而後再找一個特徵做爲劃分……orm
劃分的好壞,如圖所示:
blog
用純度Purity來衡量劃分的效果,若是劃分的好,那麼每個子集都是某一類佔據大多數,若是每個子集都是跟父節點同樣的狀態,那麼就是Low purity。圖片
一個好的劃分要知足下面兩個特色:ci
決策樹的終止條件:it
有不一樣的衡量purity的方法,不一樣的衡量方法會致使不一樣的分裂。io
GINI係數的計算方法:form
能夠看出來,GINI係數是類別的機率乘上類別的機率,而熵是類別的機率呈上類別機率的logarithmclass
看一下Entropy的計算方法:
方法