決策樹——連續值處理

思想: 選擇合適的值做爲閾值,實現最佳二分,遍歷所有連續屬性值後,計算所有已當前Gini()係數大小,選擇最大的 例子, 來看看到底是怎樣劃分的。給定數據集如下(數據集來自周志華《機器學習》 對於數據集中的屬性「密度」,決策樹開始學習時,根節點包含的17個訓練樣本在該屬性上取值均不同。我們先把「密度」這些值從小到大排序: 根據上面計算 的公式,可得: 下面開始計算t 取不同值時的信息增益:
相關文章
相關標籤/搜索