機器學習之決策樹算法

時間 2019-11-07

標籤機器學習決策樹算法简体版

原文原文鏈接

決策樹(decision tree)

機器學習中，決策樹是一個預測模型；他表明的是對象屬性與對象值之間的一種映射關係。樹中每一個節點表示某個對象，而每一個分叉路徑則表明的某個可能的屬性值，而每一個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值。決策樹僅有單一輸出，若欲有複數輸出，能夠創建獨立的決策樹以處理不一樣輸出。數據挖掘中決策樹是一種常常要用到的技術，能夠用於分析數據，一樣也能夠用來做預測。
從數據產生決策樹的機器學習技術叫作決策樹學習,通俗說就是決策樹。算法

決策樹可能有多種創建方式：
機器學習

如何選擇最優的決策樹？
先引入一個信息熵（information entropy）的概念：
信息熵是度量樣本集合純度經常使用的一種指標，他的值越小，則當前樣本集合S的純度越高。Ent(S)的最小值爲0，最大值爲log(C)
當前樣本集合中第i類樣本所佔比例爲pi。post

信息增益(information gain)
假定離散屬性A有個V可能的取值，若使用A對樣本集合S進行劃分，會產生V個分支節點，其中第v個分支節點包含了S中全部在屬性A上取值爲Sv的節點，記爲|Sv|。咱們能夠根據上式計算出|Sv|的信息熵，再根據樣本數的不一樣賦值權重，即樣本數越多的分支節點的影響越大，因而能夠計算出屬性A對樣本集S進行劃分所得到的信息增益：

通常而言，信息增益越大，則意味着使用屬性A來進行劃分所得到的純度提高越大。咱們選擇當前集合下信息增益最大對應的屬性來進行劃分。性能