樹(ID3,C4.5,CART,信息增益,信息增益比,基尼指數)

ID3: 離散特徵(標稱型數據)、貪心算法、信息增益、特徵所有取值切分(非二分) 缺點:有偏向問題,過擬合,只能離散型數據 C4.5: 離散/連續特徵(對連續屬性掃描排序,設定閾值,二分樣本)、信息增益比(引入分裂信息(Split information)的項來懲罰取值較多的Feature)、可剪枝(合併葉節點)、可處理缺失值(可參考缺失值處理) CART: 分類迴歸樹、二元切分、節點分裂可用各種
相關文章
相關標籤/搜索