C4.5(weka又稱爲J48)算法原理詳解

1. 信息增益率 ID3算法有以下幾個缺點: 1個屬性取值越多,則此屬性的信息增益率越大,越有可能被ID3選爲當前分類屬性。然而取值較多的屬性並不一定最優。(例如一個屬性的每個子節點都只有1個樣本,此時信息增益率達到最大,但是用這樣的屬性卻沒有任何意義) ID3只能處理離散型屬性 可以處理缺失數據 可以對樹進行剪枝 針對ID3算法的不足,Quinlan又提出了C4.5,C4.5算法採用信息增益率來
相關文章
相關標籤/搜索