摘要:在隨機森林介紹中提到了隨機森林一個重要特徵:可以計算單個特徵變量的重要性。而且這一特徵在不少方面可以獲得應用,例如在銀行貸款業務中可否正確的評估一個企業的信用度,關係到是否可以有效地回收貸款。可是信用評估模型的數據特徵有不少,其中不乏有不少噪音,因此須要計算出每個特徵的重要性並對這些特徵進行一個排序,進而能夠從全部特徵中選擇出重要性靠前的特徵。html
在隨機森林中某個特徵X的重要性的計算方法以下:dom
1:對於隨機森林中的每一顆決策樹,使用相應的OOB(袋外數據)數據來計算它的袋外數據偏差,記爲errOOB1.rest
2: 隨機地對袋外數據OOB全部樣本的特徵X加入噪聲干擾(就能夠隨機的改變樣本在特徵X處的值),再次計算它的袋外數據偏差,記爲errOOB2.htm
3:假設隨機森林中有Ntree棵樹,那麼對於特徵X的重要性=∑(errOOB2-errOOB1)/Ntree,之因此能夠用這個表達式來做爲相應特徵的重要性的度量值是由於:若給某個特徵隨機加入噪聲以後,袋外的準確率大幅度下降,則說明這個特徵對於樣本的分類結果影響很大,也就是說它的重要程度比較高。blog
在論文 Variable Selection using Random Forests中詳細的論述了基於隨機森林的特徵選擇方法,這裏咱們進行一些回顧。排序
首先特徵選擇的目標有兩個:get
1:找到與應變量高度相關的特徵變量。io
2:選擇出數目較少的特徵變量而且可以充分的預測應變量的結果。pdf
其次通常特徵選擇的步驟爲:變量
1:初步估計和排序
a)對隨機森林中的特徵變量按照VI(Variable Importance)降序排序。
b)肯定刪除比例,從當前的特徵變量中剔除相應比例不重要的指標,從而獲得一個新的特徵集。
c)用新的特徵集創建新的隨機森林,並計算特徵集中每一個特徵的VI,並排序。
d)重複以上步驟,直到剩下m個特徵。
2:根據1中獲得的每一個特徵集和它們創建起來的隨機森林,計算對應的袋外偏差率(OOB err),將袋外偏差率最低的特徵集做爲最後選定的特徵集。