C&R Tree全稱是Classification and Regression Tree,即分類及迴歸樹,它是由美國斯坦福大學和加州大學伯克利分校的Breiman等人於1984年提出的,從名稱中不難理解,它包含了分類樹和迴歸樹,分類樹用於目標變量是分類型的,迴歸樹用於目標變量是連續型的。html
該算法分割的核心技術取決於目標變量的類型,若是是分類變量,能夠選擇使用Gini或者是Twoing.若是是連續變量,會自動選擇LSD(Least-squared deviation)。算法
C&R Tree的生長是二叉樹, 前面咱們講過的C5.0和CHAID分別是以信息增益率和卡方爲標準來選擇最佳分組變量和分割點,今天咱們講的C&R Tree,若是目標變量是分類型,則以Gini係數來確認分割點,若是目標變量是數值型,則以方差來確認分割點。測試
咱們先來說目標變量是分類型的狀況,咱們稱之爲分類樹:大數據
在C&R Tree算法中,Gini係數反映的是目標變量組間差別程度,係數越小,組間差別越大。Gini係數計算公式以下:htm
G(t)=1-(t1/T)^2-(t2/T)^2-(t3/T)^2-(tn/T)^2blog
其中T爲總記錄數,t1,t2,t3,tn…..分別爲輸出變量每一個類別的記錄數教程
爲了比較好理解這個公式,咱們以分析結果來理解公式內容,以下圖:get
該決策樹分析結果,是分析客戶的流失爲目標,影響的因素有小朋友個數(children),婚姻狀態(Status),年齡(age)等,咱們先從根節點開始看。數學
根節點的G(t)=1-(562/1469) ^2-(907/1469)^2=0.472421883io
左邊節點G(t1)=1-(439/833) ^2-(394/833) ^2=0.498540833
右邊節點G(t2)=1-(123/636) ^2-(513/636) ^2=0.311988252
C&R Tree採用Gini係數的減小量來測量異質性降低,所以
ΔG(t)=G(t)-n1/N*G(t1)-n2/N*G(t2)=0.472421883-833/(833+636)* 0.498540833-636/(833+636)* 0.311988252=0.05464854
其中n1是左節點的記錄數833,n2是右節點的記錄數636,N是根節點的記錄數833+636=1469。
計算最終獲得的ΔG(t)=0.05464854就是上圖中顯示的改進=0.055(四捨五入),那麼爲何選擇這個children<-1.5和children>1/5做爲分割點,是由於與其它影響因素相比較,這裏計算獲得的ΔG(t)最大。因此在整個決策樹生長中,能夠看到,越往下生長,ΔG(t)越小。
針對連續變量,先對變量按升序排列,而後,從小到大依次以相鄰數值的中間值做爲將樣本分爲兩組,而後分別計算其ΔG(t)。針對分類變量,因爲C&R Tree只能創建二叉樹(即只能有兩個分支),首先需將多類別合併成兩個類別,造成「超類」,而後計算兩「超類」下樣本輸出變量取值的異質性。
在IBM SPSS Modeler中,除了使用Gini係數的減小量做爲標準,還能夠選擇另外兩種標準,分別是Twoing(兩分法)和Ordered(有序),以下圖:
Twoing策略中,輸出變量的差別性測度仍採用Gini係數,不一樣的是,再也不以使用Gini係數減小最快爲原則,而是要找到使合併造成的左右子節點(兩個超類)中分佈差別足夠大的合併點s,計算公式爲:
仍如下圖決策樹結果爲例:
所以
該數值對應着上圖第一個根節點的改進=0.109(四捨五入)
能夠看到,越是靠近根節點,該值越大。
Order策略適用於有序型輸入變量的狀況 ,它只限定只有兩個連續的類別才能夠合併成超類,最終獲得最理想的兩個超類。
接下來咱們來看目標變量是數值型的狀況,咱們稱爲迴歸樹。 迴歸樹肯定最佳分組變量的策略與分類樹相同,主要不一樣是測試輸出變量異質性的指標,
迴歸樹使用的是方差,所以異質性降低的測度指標爲方差的減小量,其數學定義爲:
其中R(t)和N分別爲分組前輸出變量的方差和樣本量,R(t1),Nt1和R(t2),Nt2分別爲分組後左右子樹的方差和樣本量。使ΔR(t)達到最大的變量應爲當前最佳分組變量。咱們經過實際例子的結果倒推來理解這個計算公式。
咱們使用SPSS Modeler作一個男裝銷售額(men)預測的場景,由於銷售額是數值型,咱們選擇C&R Tree來實現,那麼影響男裝銷售的輸入影響因素有女裝銷售(women)、電話營銷成本(phone)等,獲得的決策樹分析結果以下:
那麼爲何生成的決策樹會以woman做爲最佳分組變量,以51286.490做爲分割點呢,因這它計算出來的ΔR(t)最大,你們能夠嘗試找個例子本身計算看看,這裏再也不贅述。
最佳分割點的肯定方法與最佳分組亦是的肯定方法相同。
在IBM SPSSModeler裏面,針對 C&R Tree算法,以上介紹的內容是肯定分割點的核心標準,對於該算法,還有其它的內容,好比剪枝,交互樹建模等,感興趣的話,能夠點擊如下連接到官網下載試用!