決策樹之ID3 ,C4.5 ,CART,理論+實例

不同算法特徵選擇依據 信息熵 信息熵(entropy)度量信息不確定性的量化問題。在信息論中,熵是表示隨機變量不確定性的度量。熵的取值越大,隨機變量的不確定性也越大。單位,比特(bit) 即: 對於樣本集合D來說,隨機變量X是樣本的類別,即,假設樣本有k個類別,每個類別的概率是,其中|Ck|表示類別k的樣本個數,|D|表示樣本總數   則對於樣本集合D來說熵(經驗熵)爲: 信息增益ID3 熵越大,
相關文章
相關標籤/搜索