Kaggle信貸預測隨筆二

繼續特徵處理環節 特徵轉化有分箱和挖掘交叉變量。有些特徵變量和目標變量不是典型線性關係,經過分箱,這些特徵變量可以提供更高的信息值。比如月收入額和授信額度等金額特徵變量在分箱後與目標變量的互信息得到顯著提升;爲了提升預測的穩定性,當有些變量值覆蓋樣本數很少(不足總樣本數的5%),也常常將這些變量值與信息增量相鄰的變量值一起分箱; 圖中的工作職位清單中,可以看到HR等職位在樣本中的佔比很低,如果直接
相關文章
相關標籤/搜索