1.決策樹的做用算法
主要用於解決分類問題的一種算法函數
2.創建決策樹的3中經常使用算法字體
1).ID3---》信息增益spa
2).c4.5--> 信息增益率3d
4).CART Gini係數blog
3.提出問題:事件
ID3算法中,選擇根節點時爲何要使得信息增益最大的特徵呢?圖片
***************************後續內容均爲更好的理解3中所提出的的問題展開****************************事務
4.ID3算法的理解數學
如何更好的理解決策樹的創建原理呢:我想從下圖的層次去理解決策樹的原理
首先用倒序的方式來將問題細化以下圖:
1).什麼是自信息?
香農(shannon)給出的定義:信息是事務運動狀態後存在方式不肯定性的描述
對上述定義的理解:
引入圖片(左圖來源:西安電子科技大學老師信號論課程講義圖)
左圖:
第一列:x1-x8表示的是發送端(信源)即將發送的信息的內容;
第二列:用3位的二進制數所惟一表徵上述x1-x8
第三列:發送端隨機發送任意一個信息內容的機率
經過右圖咱們能夠發現,在信號傳遞過程當中所體現出來的不肯定性咱們是能夠經過幾率的方式去量化表徵的;
這樣咱們就能夠預先假設不肯定性和機率以前存在着一種量化的關係,能夠作出以下的定義:在以下圖所示的集合中,每個事件x發生的不肯定性能夠定義爲
下面咱們分析一下信息的不肯定性的特色:
a.肯定事件的不肯定性爲0,即f(1) = 0
b.是單調減函數,即隨着p(xi)的增大,f的值減少
c.可加性,即a發生的不肯定性爲i,b發生的不肯定性爲j 那麼a和b同時發生的不肯定性爲i + j
經過上述的假設的不肯定性與機率之間的量化關係,以及信號傳遞(或者說事件發生)過程當中不肯定性的特色,發現
此種形式的函數知足如上假設以及特色
由此便有了信息的數學表達式爲:
表達式1:事件xi的自信息-------------------------->
爲何稱做自信息,暫且理解爲只考慮自身的不肯定性,後邊的內容瞭解以後,你們就知道爲甚這麼叫了。
表達式2:事件xi的條件自信息------------------->
含義:事件yi發生的狀況下,事件xi發生的不肯定性的大小
表達式3:事件x的非平均互信息:------------->
含義:觀測某一事件後所獲得的關於信源事件不肯定性的大小;
分步驟理解:
第一步:y事件發生前x事件發生的可能性爲I(x)
第二步:y事件發生後x事件發生的可能性爲I(x|y)
第三步:二者的差值即就是觀測y事件發生後所獲得的關於x事件不肯定性的大小
經過上圖,咱們能夠更直觀獲得自信息,條件自信息,非平均互信息三者之間的關係;
******************************************************************************************
2).什麼是信息熵?
在理解什麼是信息的過程當中,咱們引入的都是單一事件,表徵的均爲單一事件的不肯定性,那如何表徵x1-x8這個集合的不肯定性呢?這便引入了信息熵,來度量集合的平均不肯定性,表達式以下:
如何理解熵的與信息之間的關係:信息用來表徵單一事件發生的不肯定性,而熵是表徵一個事件集合發射的平均不肯定性,此處的平均實爲加權平均
下面是幾種熵的表達式:
表達式1:條件平均子信息(注意此時的x是一個集合)
表達式2:條件熵
表達式3:平均互信息
定義1:特定事件y屬於Y w(y)>0出現時所給出的關於集合{X,p(x)}中格式件的平均互信息的表達式:
含義:觀測某一事件後所獲得的信源事件總體平均不肯定性的大小
定義2:集合{XY,p(xy)}中隨機變量I(x;y)的數學指望:
含義:觀測集合總體後所獲得的信源事件總體平均不肯定性的大小
關係以下圖:
咱們發現:
下面給出上述關係的證實:(此時就是信息增益的關係時)
5.結論:
下面解決咱們最初提出的問題即:ID3算法中,選擇根節點時爲何要使得信息增益最大的特徵呢?
首先明確咱們在決策樹中所提出的信息增益即就是平均互信息I(X;Y),含義如上文中藍色字體所示,也能夠理解爲是Y事件集發生後,使得x發生的不肯定性的減小程度
爲何要信息增益大呢?以下圖所示當信息增益越大時,時件y發生後時間x的不肯定性(即條件互信息)愈來愈小,這個正是咱們所想要的;