決策樹purity/基尼係數/信息增益 Decision Trees

決策樹簡單描述

決策樹的樣子大概是這個樣子的:
在這裏插入圖片描述3d

選擇一個特徵做爲根節點,把這個特徵劃分紅兩個孩子節點,每一個孩子節點就是原始數據集的子集,而後再找一個特徵做爲劃分……orm


劃分的好壞,如圖所示:
在這裏插入圖片描述blog

用純度Purity來衡量劃分的效果,若是劃分的好,那麼每個子集都是某一類佔據大多數,若是每個子集都是跟父節點同樣的狀態,那麼就是Low purity。圖片

一個好的劃分要知足下面兩個特色:ci

  1. 劃分是High purity
  2. 劃分產生的兩個子節點的樣本數量相近,避免產生很是小的子集。

決策樹的終止條件it

  1. 樹的深度到達必定條件;
  2. 每個節點中的樣本數量到達一個下線
  3. 不會再有劃分,能夠增長節點的purity了

衡量purity的三種方法

有不一樣的衡量purity的方法,不一樣的衡量方法會致使不一樣的分裂。io

Gini Coefficient

在這裏插入圖片描述

  • Pr(k)是一個樣本屬於類別K的機率;
  • C就是類別的總數

GINI係數的計算方法:form

在這裏插入圖片描述


Entropy熵

在這裏插入圖片描述
能夠看出來,GINI係數是類別的機率乘上類別的機率,而熵是類別的機率呈上類別機率的logarithmclass

  • GINI的取值範圍是0.5~1,越大越purity;
  • Entropy的取值範圍是0~1,越小越purity
    介紹完了熵,那麼什麼是信息增益
    是要最大化的信息增益:
    在這裏插入圖片描述
    由於Entropy取值範圍是0就purity,因此information gain越大,那麼說明分割的purity越好。

看一下Entropy的計算方法:
在這裏插入圖片描述方法

相關文章
相關標籤/搜索