機器學習理論決策樹算法第一卷

時間 2019-12-08

標籤機器學習理論決策樹算法一卷简体版

原文原文鏈接

決策樹算法內容來至於《統計學習與方法》李航,《機器學習》周志華,以及《機器學習實戰》Peter HarringTon,相互學習,不足之處請你們多多指教python

本卷的大綱爲算法

1 決策樹的概念機器學習

2 特徵選擇,信息熵,條件熵ide

3 決策樹的生成函數

4 決策樹的剪枝性能

1 決策樹的概念

決策樹是一顆基於分類與迴歸的方法，本章主要討論分類的決策樹。決策樹的模型呈樹形結構，在分類問題中，表示基於特徵對實例進行分類的過程。學習

決策樹的學習過程包括：特徵選擇，決策樹的生成，和決策樹修剪。測試

決策樹的優勢：模型具備可讀性，分類速度快，學習時，利用訓練數據，根據損失函數最小化的原則創建決策樹模型，預測時，對新的數據，利用決策樹模型進行分類。spa

決策樹由結點和有向邊組成，結點有兩個類型：內部結點和葉節點，內部結點表示一個特徵或者屬性，葉結點表示一個類別。code

決策樹能夠轉換爲if-then模型，內部結點的特徵對應規則的條件，葉節點表示對應規則下的結論。

決策樹的損失函數一般是正則化的最大似然函數。決策樹學習的策略是以損失函數爲目標函數的最小化。

決策樹構建的過程：

（1）開始構建根結點，將全部訓練數據都放在根結點上。

（2）選擇一個最優特徵，按照這個特徵將訓練數據集分割成子集，使得各個子集有一個在當前條件下的最好分類。

（3）若是這個子集已經基本上正確分類，那麼構建葉節點。

（4）若是還有子集不能被基本正確分類，那麼就對這些子集選着新的最優特徵，繼續對子集進行分割。遞歸下去直到全部訓練數據的子集被基本正確分類。最後每一個子集都被分到葉節點上。造成一

個決策樹。

決策樹學習的過程包括特徵選擇，決策樹的生成，以及決策樹的剪枝，因爲決策樹表示一個條件機率分佈，因此深淺不一樣的決策樹對應不一樣複雜度的機率模型，決策樹的生成對應模型的局部選擇

決策樹的剪枝對應模型的全局選擇，決策樹的生成只考慮局部最優，相對的，決策樹的剪枝表示全局最優。

2 特徵選擇，信息熵，條件熵

特徵選擇在於選取對訓練數據具備分類特徵的特徵，提升決策樹的學習效率，特徵選擇準則基於信息增益和信息增益比。

2.1信息熵

信息熵的概念：熵表示隨機變量不肯定性的度量，熵越大，隨機變量的不肯定性就越大。信息熵的定義以下：

設X是有限個離散隨機變量，其機率分佈爲：

隨機變量X的熵定義爲：

一般，若是5.1中的對數以2爲底，則信息熵的單位爲比特，以天然對數爲底，則信息熵的單位爲鈉特(nat).

當隨機變量只取二個值的時候，X的分佈爲

P(x=1) = p

P(x=0) = 1-p

H(x)=-plog2p-(1-p)log2(1-p)

此時熵的曲線爲：

對應的Python代碼爲:

#!/usr/bin/python
#-*-encoding:utf-8 -*-

import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import  math

mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

def entropy(p):
    return -p*np.log2(p) - (1-p)*np.log2(1-p)

if __name__=="__main__":

    p = np.linspace(0,1,200)
    y = entropy(p)
    fig = plt.figure(facecolor='w')
    plt.title(u" 信息熵曲線")

    plt.plot(p,y,'g-',linewidth=2,label=u'信息熵曲線')
    plt.legend(loc='upper right')
    plt.grid(True)
    plt.show()