CART(Classification And Regression Tree)算法原理詳解

1. Gini指數 CART決策樹是用」吉尼指數」來選擇屬性劃分。數據集D的純度可用基尼值來度量: Gini(D)=∑k=1n∑k′≠kpkpk′=1−∑k=1np2k 直觀來說, Gini(D) 反映了從數據集D中隨機抽取兩個樣本,其類別標記不一致的概率。因此 Gini(D) 越小,數據集D純度越高。因此屬性 α 的基尼指數定義爲: Gini(D,α)=∑v=1V|Dv||D|Gini(Dv)
相關文章
相關標籤/搜索