隨機森林篩選變量（Python實現）

時間 2020-08-10

原文原文鏈接

#文章轉自每日一Python公衆號 app 當數據集的特徵過多時，容易產生過擬合，能夠用隨機森林來在訓練以後能夠產生一個各個特徵重要性的數據集，利用這個數據集，肯定一個閾值，選出來對模型訓練幫助最大的一些特徵，篩選出重要變量後能夠再訓練模型；dom 本文所用數據集是從kaggle網站上下載的lend club數據，經過隨機森林篩選出對預測是否逾期的重要性變量：網站 # 首先導入數據，查看數據集的基