淺析決策樹的生長和剪枝

摘要:決策樹剪枝策略:先剪枝、後剪枝,用於解決過擬合問題。

本文分享自華爲雲社區《淺析決策樹的生長和剪枝》,原文做者:chengxiaoli。html

決策樹(Decision Tree)是在已知各類狀況發生機率的基礎上,經過構成決策樹來求取淨現值的指望值大於等於零的機率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用機率分析的一種圖解法。因爲這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。在機器學習中,決策樹是一個預測模型,他表明的是對象屬性與對象值之間的一種映射關係,它是一種監督學習。算法

一.決策樹模型

首先說明下什麼是決策樹呢?決策樹是一個相似流程圖的樹結構:每一個內部節點(分支節點/樹枝節點)表示一個特徵或屬性,每一個樹葉節點表明一個分類。segmentfault

在決策樹的生長過程當中主要會存在的問題是:對於選擇分支節點的主觀性較強。解決辦法:利用信息熵或信息增益解決由於人主觀判斷問題,只須要計算信息熵或信息增益再排序從而正確分類的過程。機器學習

信息增益的含義 :劃分數據集先後信息發生的變化。
image.png性能

熵:物理學中指物體能量的分佈均勻狀況,信息熵:對信息的不肯定性的度量:公式:H(x)=-sum(plog(p))。信息熵越小,不肯定性越小,肯定性越大,信息的純度越高。H(D)是數據集D的熵,計算公式:
image.png學習

Ck是在數據集D中出現k類的數量,N是樣本的數量,類別的總數。H(D|A) 是特徵A對與數據集D的條件熵,其意義是:在子集Di中Y的分佈。計算方法是:
image.png測試

GainA(A的信息增益)=H_All(整體的信息熵)-H(A)(以A節點做爲劃分節點的信息熵)決策樹中分支節點選擇:信息增益大的做爲分支節點信息增益越大,信息熵越小,信息不肯定性越小,肯定性越大,純度越高。綜合以後信息增益的公式:
image.pngspa

特徵A對訓練集D的信息增益比gR(D,A)定義爲
image.png
image.pnghtm

HA(D)刻畫了特徵A對訓練集D的分辨能力,信息增益率改進因爲信息增益偏向特徵取值較多的不足之處,使用信息增益率進一步劃分決策樹。對象

以上決策算法:ID3算法-信息增益、C4.5算法-信息增益率。決策樹剪枝策略: 先剪枝、後剪枝,用於解決過擬合問題。

二.ID3和C4.5劃分策略

ID3和C4.5算法的劃分思想:根據信息增益或信息增益率選擇構建決策樹的分支節點,依次遞歸建樹。

決策樹構建的基本步驟:

(1)若是全部的屬性都被用於劃分,直接結束;

(2)計算全部特徵的信息增益或信息增益率,選擇信息增益較大的(如a節點)值對應的特徵進行分類;

(3)若是使用a節點做爲劃分節點沒有劃分完成,接下來使用除去a節點以外的其餘特徵節點中信息增益較大的進一步進行創建決策樹。(遞歸創建決策樹)

決策樹中止中止生長的條件:

  • 若是屬性都用於劃分,直接結束;若是還有沒有被劃分的節點,使用多數表決;
  • 若是全部樣本都已經分類,直接結束;
  • 定義最大不純度進行度量;
  • 定義葉子節點的數目;
  • 定義分支節點包含的樣本個數。

三.決策樹剪枝

決策樹是充分考慮了全部的數據點而生成的複雜樹,有可能出現過擬合的狀況,決策樹越複雜,過擬合的程度會越高。決策樹的構建過程是一個遞歸的過層,因此必須肯定中止條件,不然過程將不會中止,樹會不停生長。

先剪枝:提早結束決策樹的增加。預剪枝下降了過擬合的風險,減小了決策樹的訓練時間開銷和測試時間開銷.帶來了欠擬合的風險。

後剪枝:是指在決策樹生長完成以後再進行剪枝的過程。—— 最小錯誤剪枝技術(MEP),悲觀錯誤剪枝(MEP)和代價複雜度剪枝(CCP)泛化性能每每優於預剪枝決策樹,訓練時間開銷比未剪枝的決策樹和預剪枝的決策樹都要大得多。

總結:

使用決策樹進行分類的優勢是很是直觀,便於理解,而且執行效率高,執行只須要一次構建,可反覆使用。可是對小規模數據集才更有效,並且在處理連續變量時效果很差,較難預測連續字段,在類別較多時,錯誤增長的比較快。

參考文獻

[1] 陳雷.深度學習與MindSpore實踐[M].清華大學出版社:2020.

[2] 諸葛越,葫蘆娃.百面機器學習[M].人民郵電出版社:2020.

[3] 阿斯頓.張,李沐.動手學深度學習[M].人民郵電出版社:2020.

點擊關注,第一時間瞭解華爲雲新鮮技術~

相關文章
相關標籤/搜索