機器學習筆記(5)——C4.5決策樹中的連續值處理和Python實現

  在ID3決策樹算法中,我們實現了基於離散屬性的決策樹構造。C4.5決策樹在劃分屬性選擇、連續值、缺失值、剪枝等幾方面做了改進,內容較多,今天我們專門討論連續值的處理和Python實現。 1. 連續屬性離散化 C4.5算法中策略是採用二分法將連續屬性離散化處理:假定樣本集D的連續屬性有n個不同的取值,對這些值從小到大排序,得到屬性值的集合。把區間的中位點作爲候選劃分點,於是得到包含n-1個元素的
相關文章
相關標籤/搜索