大白話5分鐘帶你走進人工智能-第二十三節決策樹系列之特色和數學表達形式(2)

                                                                  第二十三節決策樹系列之特色和數學表達形式(2)正則表達式

 上節咱們講解了決策樹的概念,本節的話咱們講解決策樹的特色以及其數學表達形式。算法

目錄app

1-決策樹的特色函數

2-決策樹的數學表達形式工具


1-決策樹的特色

決策樹的特色大體有如下幾種:優化

一、能夠處理非線性問題。邏輯迴歸處理非線性問題有一些捉襟見肘,沒有特別完善的方法能解決,咱們有若干種妥協的方法來讓它湊合能用,而決策樹天生就能夠處理非線性問題。假設在一個二維的平面上,有若干數據如圖:spa

每個數據有兩個維度,x1和x2。總共9個數據點。若是咱們想用邏輯迴歸來分類,不管怎麼分,都找不到一條很好地直線將圖中點分開。假設咱們用決策樹分裂的話,第一次分裂選擇條件是x<3,至關於畫一條豎線,全部x<3的都分到左邊,x>3分到右邊。code

分到左邊的都是O點,分到右邊的有一半是O點一半是X點,給它落成一個葉子節點不太合適,就須要再次分裂,再選擇分裂條件是x<6,就將數據完美的分開了。咱們的決策樹的分裂圖如圖所示:blog

 

原來邏輯迴歸處理不了的非線性問題,決策樹垂手可得的就把它們分開了。遞歸

再好比下圖:

數據點如圖,想把藍色,紅色的數據點分開,一樣的線性不可分,而決策樹卻能夠會畫出一個波浪線,把數據分開,至關於每個折點部分就多出分裂一個條件。因此說經過決策樹不斷分裂的方式,能夠處理各類各樣的非線性問題。

二、可解釋性強。從數據集上抓到一個算法,生成出來一個模型,邏輯迴歸模型的本質,記在計算機裏面的是一組w,訓練出來這個模型是個一組數,它沒有具體的物理含義。好比0.8和 0.7,怎麼解釋這兩個w到底差異在哪?說不太清,可解釋性差一些,機器到底學少什麼你不知道。而決策樹算法,記錄下來的是一組分類條件,相比一組w來講,它的可解釋性是要強很多。

          三、 決策樹的模型很是簡單。它不須要藉助函數最優化工具,在原生的決策樹裏面是沒有損失函數這個概念的。決策樹其實特別像森林球,某一條數據順根節點、分支節點下來,最後落到某一個葉子節點上。它這個模型相對於梯度降低的訓練過程當中是比較簡單的,預測就更簡單了,直接跑一遍if…else,最後該是誰就是誰。

          四、缺點 不容易顯示地使用函數表達,不可微。可能帶來一個問題是很差給它加正則項,正則項是用來評估模型簡單程度的。原來的損失函數,給它加一個L1正則,組成了一個新的形式函數叫obj,本來是讓L損失函數最小,如今要變成讓它們倆合obj最小。爲何加上它效果就能好?在算法模型裏邊是經過這L1和L2兩個指標來評估模型究竟是簡單仍是複雜的。若是有更簡單的方式能獲得更好的模型,固然要優先簡單的,由於複雜模型容易過擬合,這也就是正則存在的意義。可是決策樹很難加這種正則表達式。

 

2-決策樹的數學表達形式

決策樹雖然不容易顯示地使用函數表達,非得要表達的話,咱們有兩種方式表達。
           第一種是從路徑的角度(Path View),將每一個從根到葉子的路徑做爲一個假設 g,經過不一樣的條件組合獲得最後的 G (X)。
           第二種是從遞歸的角度(Recursive View),父樹是由子樹遞歸定義的 tree=(root,sub-trees)

 

一、咱們先說第一種從路徑的角度:表達以下:

                                                                 $G(\mathbf{x})=\sum_{t=1}^{T} q_{t}(\mathbf{x}) \cdot g_{t}(\mathbf{x})$

上面G(x)是一個函數,對於函數咱們永遠就把它理解成一個機器,你給我一個原材料,我給你生產一個東西。因此這裏面的G(x)也不例外,對於決策樹來講通常是作分類的,因此咱們能夠想到這個函數G(x)其實就表明着你給我一個X,我給你一個分類結果。因此G表明着這棵已經生成好的決策樹,X表明着扔進去的一個原數據。而函數後面的表達式表明我這個機器如何工做的,如何從已知獲得結果的,是表達式記錄的信息。咱們看到後面是個連加符號,給它拆解出來就是

$G(x)=q_{1}(x)\cdot g_{1}(x)+q_{2}(x)\cdot g_{2}(x)+q_{3}(x)\cdot g_{3}(x)$+...+q_{T}(x)\cdot g_{T}(x)$$               

這是什麼意思呢?好比下圖的決策樹,我把葉子節點編號如圖:

這裏面q表明全部決策樹的路徑,好比咱們的X是qutitingtime<17:00 而且沒有約會,那麼在上述決策樹存在的狀況下,這個數據會落到2號節點,可以通往幾號節點的路徑就叫幾號路徑,因此X扔進來的狀況下,會通往2號路徑,因此咱們定義此時的X只有q(2)x=1,其餘路徑都爲0,即q(1)x=0,q(3)x=0...。因此咱們qt是定義出來的,表明着x是否是在第t號路徑上,is x on path t。gt(x)表明某一號葉子節點的表達,好比這裏的X,落在2號節點上,因此表達爲Y,也就是說之後甭管X是什麼樣,只要落在2號節點上,就寫成Y,所以qt(x).gt(x)就是表明來一條數據,先是經過qt(x)看看落在哪一個葉子節點上,而後再經過gt(x)看看這個葉子結點的表達是什麼,咱們就返回什麼(Y 或者N),簡直就是一個很無聊的表達,而且表達的很簡單。

上面公式表達的前提就是樹已經存在了,它的判別函數怎麼表達。因此仍是針對上述落在2號節點的X,咱們針對上面的決策樹把連加符號拆解出來就是:

                 $G(x)=0\cdot g_{1}(x)+1 \cdot g_{2}(x)+0\cdot g_{3}(x)$+0\cdot g_{4}(x)+0\cdot g_{5}(x)+0\cdot g_{6}(x)$$

由於只有2號節點的q2(x)=1,其餘都爲0。這裏面的點乘表明着對應關係,並非真正的乘。T表明第幾號葉子結點即葉子節點的序號。gt(x)是一個base hyponthesis 基礎的假設,這裏就是假設我全部的葉子結點的表達的形式是Y仍是N,是一個常數。由於這裏面gt(x)的值只有Y或者N。不是取決於X的輸入,而是取決於我當前落在第幾號節點,g(1)(x)就是N,g(2)X就是Y。因此總結以下:

           二、第二種表達決策樹的方式:遞歸的角度(Recursive View)

                                                        $G(\mathbf{x})=\sum_{c=1}^{C}[b(\mathbf{x})=c] \cdot G_{c}(\mathbf{x})$

咱們經過下面舉例解釋下上面公式:

實際上上面是個遞歸的表達形式。好比對於根節點(qutting time )來講,有3個子節點,如圖所示。對於1號子節點的根(has a date)來講有兩個子節點 N或者Y。仍是拿上面X是qutitingtime<17:00 而且沒有約會的例子來講,從根節點下來會落到1號子節點,這裏面的b(x)是分支的條件,這個例子中b(x)=1 ,C表明幾個子節點,而對於qutting time的根節點來講,有3個子節點,因此C=3。落在幾號節點上,只有當前子節點爲1,其餘都爲0,因此對於這裏只有G1(x)=1。當落到1號節點以後,繼續往下走,同理接着遍歷,會落到1號子節點中的Y子節點上,同理對於 has a date 做爲根節點來講,C=2,由於落在Y子節點上,此時是葉子結點,不在遍歷,因此向上依次返回最終結果Y。

總結以下:

下一節咱們講解決策樹的分裂流程以及分裂條件的評估。

相關文章
相關標籤/搜索