樹模型串聯(一)(決策樹基礎:信息熵、信息增益、信息增益率、基尼指數、過擬合預防)

1.信息熵、信息增益、信息增益率 信息熵 衡量的是樣本集合的「純度」,也可以理解爲樣本中類別區分的不確定性;熵值越小,純度越高,那麼不確定性越低,就越能將樣本很好的分類(很確定性的分類比如p1=1;其他的都=0),信息熵最大時,不確定性就最高(當幾個類別佔比都一樣的時候)。 信息增益 生長一棵樹,一棵樹就是一套規則,得到這套規則;希望這套規則最大程度的幫助做決策和判斷。 每一次去做決策都要讓不確定
相關文章
相關標籤/搜索