決策樹信息熵和信息增益的概念

1 信息熵:度量樣本集合純度的。 計算方法:  p(k):每一種情況發生的的概率,變量的不確定性越大,其信息熵越大。 2.信息增益:用來進行決策樹的劃分屬性選擇。 著名的ID3決策樹算法和C4.5算法最根本的不同就是:屬性選擇的度量方式不同,ID3:依據信息增益。C4.5根據增益率來進行選擇劃分的屬性。 3.決策樹容易出現overfitting的情況,主要通過剪枝操作來避免。 先剪枝:樹的深度達到
相關文章
相關標籤/搜索