數據挖掘 -- C4.5決策樹算法

1. 算法原理 C4.5算法: 首先根據訓練集求出各屬性的信息熵info, 而後求出類別信息商infod, infod - info[i]獲得每一個屬性的信息增益gain, 而後計算每一個屬性的信息分裂度h, gain[i] / h[i]獲得屬性信息增益率。遞歸選擇信息增益率最高的屬性,按照該屬性對數據集進行分裂,判斷分裂以後的數據集類別是否爲’純’的,若是是則將當前分裂屬性做爲葉節點,若是不是繼
相關文章
相關標籤/搜索