決策樹分類算法及python代碼實現案例

時間 2019-11-08

標籤決策樹分類算法 python 代碼實現案例欄目 Python 简体版

原文原文鏈接

決策樹分類算法算法

一、概述性能

決策樹（decision tree）——是一種被普遍使用的分類算法。測試

相比貝葉斯算法，決策樹的優點在於構造過程不須要任何領域知識或參數設置spa

在實際應用中，對於探測式的知識發現，決策樹更加適用。對象

二、算法思想blog

通俗來講，決策樹分類的思想相似於找對象。現想象一個女孩的母親要給這個女孩介紹男友，因而有了下面的對話：ci

女兒：多大年紀了？io

母親：26。table

女兒：長的帥不帥？二叉樹

母親：挺帥的。

女兒：收入高不？

母親：不算很高，中等狀況。

女兒：是公務員不？

母親：是，在稅務局上班呢。

女兒：那好，我去見見。

這個女孩的決策過程就是典型的分類樹決策。

實質：經過年齡、長相、收入和是否公務員對將男人分爲兩個類別：見和不見

假設這個女孩對男人的要求是：30歲如下、長相中等以上而且是高收入者或中等以上收入的公務員，那麼這個能夠用下圖表示女孩的決策邏輯

上圖完整表達了這個女孩決定是否見一個約會對象的策略，其中：

◊綠色節點表示判斷條件

◊橙色節點表示決策結果

◊箭頭表示在一個判斷條件在不一樣狀況下的決策路徑

圖中紅色箭頭表示了上面例子中女孩的決策過程。

這幅圖基本能夠算是一顆決策樹，說它「基本能夠算」是由於圖中的斷定條件沒有量化，如收入高中低等等，還不能算是嚴格意義上的決策樹，若是將全部條件量化，則就變成真正的決策樹了。

決策樹分類算法的關鍵就是根據「先驗數據」構造一棵最佳的決策樹，用以預測未知數據的類別

決策樹：是一個樹結構（能夠是二叉樹或非二叉樹）。其每一個非葉節點表示一個特徵屬性上的測試，每一個分支表明這個特徵屬性在某個值域上的輸出，而每一個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始，測試待分類項中相應的特徵屬性，並按照其值選擇輸出分支，直到到達葉子節點，將葉子節點存放的類別做爲決策結果。

三、決策樹構造

假若有如下判斷蘋果好壞的數據樣本：

樣本紅大好蘋果

0 1 1 1

1 1 0 1

2 0 1 0

3 0 0 0

樣本中有2個屬性，A0表示是否紅蘋果。A1表示是否大蘋果。假如要根據這個數據樣本構建一棵自動判斷蘋果好壞的決策樹。

因爲本例中的數據只有2個屬性，所以，咱們能夠窮舉全部可能構造出來的決策樹，就2棵，以下圖所示：

顯然左邊先使用A0（紅色）作劃分依據的決策樹要優於右邊用A1（大小）作劃分依據的決策樹。

固然這是直覺的認知。而直覺顯然不適合轉化成程序的實現，因此須要有一種定量的考察來評價這兩棵樹的性能好壞。

決策樹的評價所用的定量考察方法爲計算每種劃分狀況的信息熵增益：