C4.5算法(數據挖掘經典分類算法)

實現C4.5算法 一、算法描述 統計好樣本集S,屬性集A,分別求出屬性集中每個屬性的信息增益率,選中增益率最大的屬性P,假設P總有n種情況的取值(連續變量要離散化),那麼分別統計好第i種情況時樣本集Si和除去P的屬性集Pi,生成相對應的子樹。主要重點有:信息增益率的計算、事後剪枝使用悲觀錯誤率衡量、樹的建造(分治思想)等。 二、主要步驟 1)  讀取文件信息,統計數目 2)  建立決策樹 如果樣本
相關文章
相關標籤/搜索