決策樹的理解

時間 2020-11-29

標籤算法 ide 學習遞歸 class 效率變量欄目應用數學简体版

原文原文鏈接

決策樹的分類速度快算法
決策樹有個步驟：特徵選擇，決策樹生成，和決策樹的修剪。ide
特許選擇：在於選取對訓練數據具備分類能力的特徵，這樣能夠提升決策樹學習的效率。若是利用一個特徵進行分類的結果與隨機分類的結果沒有很大差異，則稱這個特徵是沒有分類能力的。經驗上任掉這些的特徵對決策樹學習的精度影響。學習
一般特徵選擇的準則是信息增益，或信息增益比。遞歸
在學習信息增益的時候，首先是要了解一個概念：熵(entropy)是表示隨機變量不肯定的度量，ci
信息越少，越是不肯定，熵也就會越大。熵的公式爲H(x)=-sum(pi*logpi)(i=1,2....n)it
熵的取值只依賴於x的分佈，並非x越大，熵就越大，等。class
信息增益 g(D,A)特徵A對訓練集D的信息增益==H(D)-H(D/A)之差。又稱互信息。效率

信息增益存在必定的問題，每每偏向於選擇取值較多的特徵的問題變量

後人又提出信息增益比: gr(D,A)=g(D,A)/Ha(D)意思就是A在特徵D上的信息增益比上A的信息熵。im

ID3,C4.5算法的生成再也不這講

決策樹生成算法遞歸地產生決策樹，直到不能繼續下去爲止。模型複雜，這樣產生的樹每每對訓練數據的分類很正確，可是每每會出現過擬合現象，下降模型複雜度，就是對決策樹進行剪枝。

CART迴歸樹。

相關文章

相關標籤/搜索

sklearn決策樹算法

我理解中的

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<