決策樹模型原理

相關基礎概念 純度:大衆選擇就意味着純度越高。數據集裏信息大都是相同的,就是純度高。數據集裏包含的信息不少,就是純度低,信息熵高。web 信息熵:用來度量包含的「信息量」。信息熵越低,純度越高。若是樣本的屬性都是同樣的,就會讓人以爲這包含的信息很單一,沒有差別化,即純度高;相反樣本的屬性都不同,那麼包含的信息量就不少,即純度低。 公式以下: Pk表示的是:當前樣本集合D中第k類樣本所佔的比例爲Pk
相關文章
相關標籤/搜索