隨機森林之特徵選擇

摘要:隨機森林介紹中提到了隨機森林一個重要特徵:可以計算單個特徵變量的重要性。而且這一特徵在不少方面可以獲得應用,例如在銀行貸款業務中可否正確的評估一個企業的信用度,關係到是否可以有效地回收貸款。可是信用評估模型的數據特徵有不少,其中不乏有不少噪音,因此須要計算出每個特徵的重要性並對這些特徵進行一個排序,進而能夠從全部特徵中選擇出重要性靠前的特徵。html

 

一:特徵重要性

在隨機森林中某個特徵X的重要性的計算方法以下:dom

1:對於隨機森林中的每一顆決策樹,使用相應的OOB(袋外數據)數據來計算它的袋外數據偏差,記爲errOOB1.rest

2:  隨機地對袋外數據OOB全部樣本的特徵X加入噪聲干擾(就能夠隨機的改變樣本在特徵X處的值),再次計算它的袋外數據偏差,記爲errOOB2.htm

3:假設隨機森林中有Ntree棵樹,那麼對於特徵X的重要性=∑(errOOB2-errOOB1)/Ntree,之因此能夠用這個表達式來做爲相應特徵的重要性的度量值是由於:若給某個特徵隨機加入噪聲以後,袋外的準確率大幅度下降,則說明這個特徵對於樣本的分類結果影響很大,也就是說它的重要程度比較高。blog

 

二:特徵選擇

在論文 Variable Selection using Random Forests中詳細的論述了基於隨機森林的特徵選擇方法,這裏咱們進行一些回顧。排序

首先特徵選擇的目標有兩個:get

1:找到與應變量高度相關的特徵變量。io

2:選擇出數目較少的特徵變量而且可以充分的預測應變量的結果。pdf

其次通常特徵選擇的步驟爲:變量

1:初步估計和排序

a)對隨機森林中的特徵變量按照VI(Variable Importance)降序排序。

b)肯定刪除比例,從當前的特徵變量中剔除相應比例不重要的指標,從而獲得一個新的特徵集。

c)用新的特徵集創建新的隨機森林,並計算特徵集中每一個特徵的VI,並排序。

d)重複以上步驟,直到剩下m個特徵。

2:根據1中獲得的每一個特徵集和它們創建起來的隨機森林,計算對應的袋外偏差率(OOB err),將袋外偏差率最低的特徵集做爲最後選定的特徵集。

相關文章
相關標籤/搜索