決策樹中的ID3、C4.5和CART算法的對比分析

ID3算法(Iterative Dichotmizer 3) 1、 特徵選擇準則:信息增益 2、 特徵必須離散化,不能處理連續值 3、不能處理缺失值 4、 偏向於選擇取值多的屬性 5、是一個多叉樹模型,只用於分類 信息熵: 度量樣本集合純度最常用的一種指標,定義如下 Ent ⁡ ( D ) = − ∑ k = 1 ∣ Y ∣ p k log ⁡ 2 p k \operatorname{Ent}(D
相關文章
相關標籤/搜索