關於決策樹的信息增益(信息熵)

1.前言 決策樹學習的關鍵是如何選擇最優劃分屬性,一般而言,隨着劃分過程的不斷進行,我們希望決策樹的分支結點所包含的樣本儘可能屬於同一個類別,即結點的‘純度’(purity)越來越高。所以我們引入信息熵的概念,來度量樣本集合的純度。 2.信息增益 3.增益率 在上面的介紹中,我們有意忽略了表4.1中的‘編號’一欄,若把‘編號’也作爲一個候選劃分屬性,則根據公式計算出它的信息增益爲0.998,遠大於
相關文章
相關標籤/搜索