這是決策樹中經典的問題了,信息增益一般用來劃分特徵的時候用到,久了可能都有些忘記了ide
定義:以某特徵劃分數據集先後的熵的差值。 熵能夠表示樣本集合的不肯定性,熵越大,樣本的不肯定性就越大。所以能夠使用劃分先後集合熵的差值來衡量使用當前特徵對於樣本集合D劃分效果的好壞。 假設劃分前樣本集合D的熵爲H(D)。使用某個特徵A劃分數據集D,計算劃分後的數據子集的熵爲H(D|A)。
則信息增益爲:
注:在決策樹構建的過程當中咱們老是但願集合往最快到達純度更高的子集合方向發展,所以咱們老是選擇使得信息增益最大的特徵來劃分當前數據集D。
思想:計算全部特徵劃分數據集D,獲得多個特徵劃分數據集D的信息增益,從這些信息增益中選擇最大的,於是當前結點的劃分特徵即是使信息增益最大的劃分所使用的特徵。
另外這裏提一下信息增益比相關知識:
信
息
增
益
比
懲
罰
參
數
信
息
增
益.net
信息增益比本質:在信息增益的基礎之上乘上一個懲罰參數。特徵個數較多時,懲罰參數較小;特徵個數較少時,懲罰參數較大。
懲罰參數:數據集D以特徵A做爲隨機變量的熵的倒數。
參考:
[1] https://blog.csdn.net/Rosalind_Xu/article/details/88582694
喜歡就關注一下啦~~~blog