決策樹算法梳理

一、 信息論基礎(熵 聯合熵 條件熵 信息增益 基尼不純度) 熵: 香農用信息熵的概念來描述信源的不確定度。 對於任意一個隨機變量 X,它的熵定義如下: 變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。 聯合熵: 兩個變量 X和Y的聯合信息熵定義爲: 聯合熵表徵了兩事件同時發生系統的不確定度。 條件熵: 設有隨機變量(X,Y),其聯合概率分佈爲 p(X=x,Y= yi) = pi
相關文章
相關標籤/搜索