降低基數,連續變量分段

數據準備非常重要: 1.從不同的渠道收集數據; 2.清理數據中意外錯誤或被認爲是極端值的取值; 3.生成衍生的變量(feature)。 在數據處理過程,需要進行的操作: 當名義變量的取值大於12個,考慮降低基數: 1>將相同含義的變量合併; 2>出現頻率下的類別被合併爲一個新的類別,並給予一個合理的標識,如other。 3>合併變量的類別使得某些預測力指標最大化。 下面是採用決策樹的方法,對於有1
相關文章
相關標籤/搜索