決策樹算法梳理

1、 信息論基礎(熵 聯合熵 條件熵 信息增益 基尼不純度) 熵:熵的概念最早起源於物理學,用於度量一個熱力學系統的無序程度,在信息論裏面,熵是對不確定性的測量。 聯合熵:聯合熵就是度量一個聯合分佈的隨機系統的不確定度。分佈爲p(x,y)的一對隨機變量(X,Y),其聯合熵定義爲: 條件熵:定義事件 X 與 Y 分別取 xi 和 yj 時的條件熵爲 其中p(xi, yj)爲 X = xi 且 Y =
相關文章
相關標籤/搜索