機器學習——基於基尼指數構建決策樹

用信息增益來構建決策樹感覺計算量好大啊,下面介紹新的一種構建決策樹的方法 首先我要引入兩個新的概念:基尼係數和基尼指數 基尼係數的作用和信息熵的作用相同,都是用來度量數據集的純度的,公式如下: Pk指的是在數據集中,取得正例的比例,pk'=1-pk Gini(D)的值越小說明,數據的純度越高,例如,給出一些西瓜的數據集,這些數據的西瓜都是好瓜,則說明,pk=1,從而得到Gini(D)=0. 那麼怎
相關文章
相關標籤/搜索