決策樹算法梳理

信息論基礎(熵 聯合熵 條件熵 信息增益 基尼不純度) a. 熵 信息熵 假設集合D中有y類樣本,第k類的樣本出現頻率爲Pk,則樣本D的熵爲 其中,當樣本 DD 中 |y|∣y∣ 類樣本均勻分佈時,這時信息熵最大,純度最小,熵爲 當樣本D中只有一類樣本,此時信息熵最小,純度最大,熵爲 ** 聯合熵** 所以若是在x的基礎上加入了一個y,那麼聯合熵H(x,y) ,必定大於等於H(x),H(y),當且
相關文章
相關標籤/搜索