隨機森林之特徵選擇

時間 2019-11-11

標籤隨機森林特徵選擇简体版

原文原文鏈接

摘要：在隨機森林介紹中提到了隨機森林一個重要特徵：可以計算單個特徵變量的重要性。而且這一特徵在不少方面可以獲得應用,例如在銀行貸款業務中可否正確的評估一個企業的信用度,關係到是否可以有效地回收貸款。可是信用評估模型的數據特徵有不少,其中不乏有不少噪音,因此須要計算出每個特徵的重要性並對這些特徵進行一個排序,進而能夠從全部特徵中選擇出重要性靠前的特徵。html

一：特徵重要性

在隨機森林中某個特徵X的重要性的計算方法以下：dom

1：對於隨機森林中的每一顆決策樹,使用相應的OOB(袋外數據)數據來計算它的袋外數據偏差,記爲errOOB1.rest

2: 隨機地對袋外數據OOB全部樣本的特徵X加入噪聲干擾(就能夠隨機的改變樣本在特徵X處的值),再次計算它的袋外數據偏差,記爲errOOB2.htm

3：假設隨機森林中有Ntree棵樹,那麼對於特徵X的重要性=∑(errOOB2-errOOB1)/Ntree,之因此能夠用這個表達式來做爲相應特徵的重要性的度量值是由於：若給某個特徵隨機加入噪聲以後,袋外的準確率大幅度下降,則說明這個特徵對於樣本的分類結果影響很大,也就是說它的重要程度比較高。blog