熵、信息增益以及其餘

  很長一段時間,都對熵、信息增益懵懵懂懂,只知其一;不知其二。最近,正巧碰到研究決策樹算法,因而乎,惡補了這方面的知識。html

  1.什麼是熵(Entropy)算法

  信息論裏面,熵是對不肯定性的測量,熵越高,則能傳輸越多的信息,熵越低,則意味着傳輸的信息越少。熵度衡量了系統的不肯定性,當咱們缺少對某個系統的知識,其不肯定性也隨着增長。函數

  例如拋硬幣,在理想狀況下他們沒法預測出現的是正面仍是反面,此時熵達到最大。可是對於「明天太陽從東方升起」,咱們徹底能夠依靠目前的知識,預測該事件確定會發生,信息熵最小。spa

  香農給出了熵數學表達:某個事件用隨機變量X表示,其能夠的取值{x1, x2, ...xn },則該事件的信息熵定義爲,3d

H(X)  =  \operatorname{E}(I(X))

  其中I(X),表示隨機變量的信息,I(X)通常定義爲:orm

  那麼,熵的定義爲:htm

H(X) = \sum_{i=1}^n {p(x_i)\,I(x_i)} = -\sum_{i=1}^n {p(x_i) \log_b p(x_i)}

  下圖給出了二分類問題熵函數:blog

  以上給出的是單變量的信息熵,咱們還能夠簡單推導出兩個隨機變量X和Y聯合信息熵:排序

  相應的,條件熵定義爲:事件

 

  2.什麼是信息增益(Information Gain)

  在介紹完基本機率,下面將介紹信息增益。信息增益,是一種衡量樣本特徵重要性的方法,直觀的理解是有無樣本特徵對分類問題的影響的大小。假設某個狀態下系統的信息熵爲H(Y),再引入某個特徵X後的信息熵爲H(Y|X),則特徵X的信息增益定義爲:

  特徵A 特徵B 特徵C 類別
samp1 0 1 0 0
samp2 0 0 1 0
samp3 1 0 0 1
samp4 1 0 1 1

 

  H(Y)表示整個系統的信息量:

       

  H(Y|A)表示「看到」(已知)特徵A的信息量:

    

 

  以此類推,能夠求出H(Y|B):

 

  H(Y|C):

  

  因而,三個特徵在當前系統下信息增益得分排序:A> B> C,利用信息增益咱們完成了對特徵重要性的排序,能夠用於特徵選擇、決策樹分裂是選擇特徵的依據等。

  3.其餘

  在文本選擇一文中,咱們展開了某個特徵的信息增益表達公式:

  其中等號右邊第一行,表示H(Y)信息熵,而等號右邊第二行表示H(Y|X=ti)信息熵(利用條件熵表達式右邊等號第二行展開)。

相關文章
相關標籤/搜索