決策樹與隨機森林

時間 2019-11-06

標籤決策樹隨機森林简体版

原文原文鏈接

首先，在瞭解樹模型以前，天然想到樹模型和線性模型有什麼區別呢？其中最重要的是，樹形模型是一個一個特徵進行處理，以前線性模型是全部特徵給予權重相加獲得一個新的值。決策樹與邏輯迴歸的分類區別也在於此，邏輯迴歸是將全部特徵變換爲機率後，經過大於某一律率閾值的劃分爲一類，小於某一律率閾值的爲另外一類；而決策樹是對每個特徵作一個劃分。另外邏輯迴歸只能找到線性分割（輸入特徵x與logit之間是線性的，除非對x進行多維映射），而決策樹能夠找到非線性分割。python

而樹形模型更加接近人的思惟方式，能夠產生可視化的分類規則，產生的模型具備可解釋性（能夠抽取規則）。樹模型擬合出來的函數實際上是分區間的階梯函數。git

決策樹學習：採用自頂向下的遞歸的方法，基本思想是以信息熵爲度量構造一棵熵值降低最快的樹，到葉子節點處熵值爲0（葉節點中的實例都屬於一類）。算法

其次，須要瞭解幾個重要的基本概念：根節點（最重要的特徵）；父節點與子節點是一對，先有父節點，纔會有子節點；葉節點（最終標籤）。bootstrap

1、決策樹機器學習

決策樹生成的數學表達式：函數

決策樹的生成：學習

決策樹思想，實際上就是尋找最純淨的劃分方法，這個最純淨在數學上叫純度，純度通俗點理解就是目標變量要分得足夠開（y=1的和y=0的混到一塊兒就會不純）。另外一種理解是分類偏差率的一種衡量。實際決策樹算法每每用到的是，純度的另外一面也即不純度，下面是不純度的公式。不純度的選取有多種方法，每種方法也就造成了不一樣的決策樹方法，好比ID3算法使用信息增益做爲不純度；C4.5算法使用信息增益率做爲不純度；CART算法使用基尼係數做爲不純度。優化

決策樹要達到尋找最純淨劃分的目標要幹兩件事，建樹和剪枝spa

建樹：3d

（1）如何按次序選擇屬性

也就是首先樹根上以及樹節點是哪一個變量呢？這些變量是從最重要到次重要依次排序的，那怎麼衡量這些變量的重要性呢？　ID3算法用的是信息增益，C4.5算法用信息增益率；CART算法使用基尼係數。決策樹方法是會把每一個特徵都試一遍，而後選取那個，可以使分類分的最好的特徵，也就是說將A屬性做爲父節點，產生的純度增益（GainA）要大於B屬性做爲父節點，則A做爲優先選取的屬性。

（根據log(x)的函數可知，p值越小，熵越大，因此當分組徹底是會出現p=0此時熵最大）

（2） 如何分裂訓練數據（對每一個屬性選擇最優的分割點）

如何分裂數據也即分裂準則是什麼？依然是經過不純度來分裂數據的，經過比較劃分先後的不純度值，來肯定如何分裂。

下面作具體的介紹：

——CART算法：既能夠作分類，也能夠作迴歸。只能造成二叉樹。

分支條件：二分類問題

分支方法：對於連續特徵的狀況：比較閾值，高於某個閾值就屬於某一類，低於某個閾值屬於另外一類。對於離散特徵：抽取子特徵，好比顏值這個特徵，有帥、醜、中等三個水平，能夠先分爲帥和不帥的，不帥的裏面再分紅醜和中等的。

得分函數（y）：就是上面提到的gt(x)，對於分類樹取得是分類最多的那個結果（也即衆數），對於迴歸樹取得是均值。

損失函數：其實這裏的損失函數，就是分類的準則，也就是求最優化的準則

對於分類樹（目標變量爲離散變量）：同一層全部分支假設函數的基尼係數的平均。

對於迴歸樹（目標變量爲連續變量）：同一層全部分支假設函數的平方差損失

對於分類樹（目標變量爲離散變量）：使用基尼係數做爲分裂規則。比較分裂前的gini和分裂後的gini減小多少，減小的越多，則選取該分裂規則，這裏的求解方法只能是離散窮舉。關於基尼係數，能夠參考周志華的西瓜書決策樹那章，講得比較簡潔，也比較易懂。「直觀來講，（數據集D的基尼係數）Gini(D)反映了從數據集D中隨機抽取兩個樣本，其類別標記不一致的機率，所以Gini(D)越小，則數據集D的純度越高。」

具體這個的計算，我以爲有例子纔好理解，下面這個紅綠球的例子很好的說明了，如何根據損失函數最小（也就是基尼係數最小）來選取分裂規則。最後GIINs2更小，所以選擇它做爲分類規則。

對於迴歸樹（目標變量爲連續變量）：使用最小方差做爲分裂規則。只能生成二叉樹。

CART與邏輯迴歸的比較：

主要優缺點以下圖。缺點補充幾點，不是很穩點，數據變化一點，你的樹就會發生變化；沒有考慮變量之間相關性，每次篩選都只考慮一個變量（所以不須要歸一化）；只能線性分割數據；貪婪算法（可能找不到最好的樹）。優勢也補充三點，同時能夠處理分類變量和數值變量（可是可能決策樹對連續變量的劃分並不合理，因此能夠提早先離散化）；能夠處理多輸出問題；另外決策樹不須要作變量篩選，它會自動篩選；適合處理高維度數據。

ID3算法：使用信息增益做爲分裂的規則，信息增益越大，則選取該分裂規則。多分叉樹。信息增益能夠理解爲，有了x之後對於標籤p的不肯定性的減小，減小的越多越好，即信息增益越大越好。

C4.5算法：使用信息增益率做爲分裂規則（須要用信息增益除以，該屬性自己的熵），此方法避免了ID3算法中的概括偏置問題，由於ID3算法會偏向於選擇類別較多的屬性（造成分支較多會致使信息增益大）。多分叉樹。連續屬性的分裂只能二分裂，離散屬性的分裂能夠多分裂，比較分裂先後信息增益率，選取信息增益率最大的。

三種方法對比：

ID3的缺點，傾向於選擇水平數量較多的變量，可能致使訓練獲得一個龐大且深度淺的樹；另外輸入變量必須是分類變量（連續變量必須離散化）；最後沒法處理空值。

C4.5選擇了信息增益率替代信息增益。

CART以基尼係數替代熵；最小化不純度而不是最大化信息增益。

剪樹：

（2） 如何中止分裂

下面這六種狀況都會中止分裂。其中第一種其實屬於樹的徹底長成，但這會出現過擬合問題，全部以前很流行一種抑制這種狀況的方法，叫樹的剪枝。樹的剪枝分爲預剪枝和後剪枝，預剪枝，及早的中止樹增加控制樹的規模，方法能夠參考以下6點中止分類的條件。後剪枝在已生成過擬合決策樹上進行剪枝，刪除沒有意義的組，能夠獲得簡化版的剪枝決策樹，包括REP（設定必定的誤分類率，減掉對誤分類率上升不超過閾值的多餘樹）、PEP，還有一種CCP，即給分裂準則—基尼係數加上懲罰項，此時樹的層數越深，基尼係數的懲罰項會越大。

2、隨機森林

儘管有剪枝等等方法，一棵樹的生成確定仍是不如多棵樹，所以就有了隨機森林，解決決策樹泛化能力弱的缺點。（能夠理解成三個臭皮匠頂過諸葛亮）

而同一批數據，用一樣的算法只能產生一棵樹，這時Bagging策略能夠幫助咱們產生不一樣的數據集。Bagging策略來源於bootstrap aggregation：從樣本集（假設樣本集N個數據點）中重採樣選出Nb個樣本（有放回的採樣，樣本數據點個數仍然不變爲N），在全部樣本上，對這n個樣本創建分類器（ID3\C4.5\CART\SVM\LOGISTIC），重複以上兩步m次，得到m個分類器，最後根據這m個分類器的投票結果，決定數據屬於哪一類。

隨機森林在bagging的基礎上更進一步：

1. 樣本的隨機：從樣本集中用Bootstrap隨機選取n個樣本

2. 特徵的隨機：從全部屬性中隨機選取K個屬性，選擇最佳分割屬性做爲節點創建CART決策樹（泛化的理解，這裏面也能夠是其餘類型的分類器，好比SVM、Logistics）

3. 重複以上兩步m次，即創建了m棵CART決策樹

4. 這m個CART造成隨機森林，經過投票表決結果，決定數據屬於哪一類（投票機制有一票否決制、少數服從多數、加權多數）

關於調參：1.如何選取K，能夠考慮有N個屬性，取K=根號N

2.最大深度（不超過8層）

3.棵數

4.最小分裂樣本樹

5.類別比例

3、python實現代碼

決策樹的重要參數都是防止過擬合的. 有2個參數是關鍵，min_samples_leaf 這個sklearn的默認值是1，經驗上必須大於100，若是一個節點都沒有100個樣本支持他的決策，通常都被認爲是過擬合；max_depth 這個參數控制樹的規模。決策樹是一個很是直觀的機器學習方法。通常咱們都會把它的決策樹結構打印出來觀察，若是深度太深對於咱們的理解是有難度的。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。