B-經濟學-基尼指數

更新、更全的《機器學習》的更新網站,更有python、go、數據結構與算法、爬蟲、人工智能教學等着你:http://www.javashuo.com/article/p-vozphyqp-cm.htmlpython

基尼指數

1、基尼指數簡介

基尼指數(gini coefficient)表明了模型的不純度,基尼指數越小,則不純度越低;基尼指數越大,則不純度越高,這和信息增益比是相反的。算法

假設一個訓練集有\(K\)個類別,樣本屬於第\(k\)個類別的機率爲\(p_k\),則它的基尼指數爲
\[ G(p) = \sum_{k=1}^K p_k (1-p_k) = 1 - \sum_{k=1}^K p_k^2 \]
若是是二分類問題,其中一個分類的機率爲\(p\),則它的基尼指數爲
\[ G(p) = 2 p(1-p) \]
對於某一個訓練集\(D\),假設訓練集有\(K\)個類別,而且第\(k\)個類別有\(C_k\)個樣本,則\(D\)的基尼指數爲
\[ G(D) = 1 - \sum_{k=1}^K ({\frac {|C_k|} {|D|}})^2 \]
對於某一訓練集\(D\),若是根據特徵\(T\)的某個特徵值是否等於\(t\)\(D\)分紅兩個子集\(D_1\)\(D_2\)
\[ D_1 = \{(x,y)\in{D}|A(x)=t\},\quad D_2 = D-D_1 \]
\(D\)的基尼指數爲
\[ G(D,A) = ({\frac {|D_1|} {|D|}})G(D_1) + ({\frac {|D_2|} {|D|}})G(D_2) \]
基尼指數\(G(D)\)表示\(D\)的不肯定性,基尼指數\(G(D,A)\)表示通過\(T=t\)分割後\(D\)的不肯定性。基尼指數越大,樣本集合的不肯定性也就越大,不純度越高。數據結構

相關文章
相關標籤/搜索