關於樹模型一些問題的思考--從決策樹一直到XGB

首先是ID3,C4.5與CART樹的區別: 1、分特徵基點不同,以及對應造成的特性 : 前兩者基於熵 條件熵 信息增益(ID3) 缺點:信息增益偏向取值較多的特徵 原因:當特徵的取值較多時,根據此特徵劃分更容易得到純度更高的子集,因此劃分之後的熵更低,由於劃分前的熵是一定的,因此信息增益更大,因此信息增益比較 偏向取值較多的特徵。 信息增益比(C4.5) 其中的 H A ( D ) H_A(D)
相關文章
相關標籤/搜索