機器學習算法總結之決策樹

一、先了解熵的概念:         根據以上定義,經驗熵是在訓練集上有若干分類。條件熵則是用特徵A的取值將訓練集分類。         熵表示的是數據中包含的信息量大小。熵越小,數據的純度越高,也就是說數據越趨於一致,這是我們希望的劃分之後每個子節點的樣子。        信息增益越大,則意味着使用屬性a來進行劃分所獲得的「純度提升」越大。也就是說,用屬性a來劃分訓練集,得到的結果中純度比較高。
相關文章
相關標籤/搜索