IV值計算及分箱

1.離散的優勢: (1)離散化後的特徵對異常數據有很強的魯棒性:比如一個特徵是年齡>30是1,否則0。如果特徵沒有離散化,一個異常數據「年齡300歲」會給模型造成很大的干擾; (2)邏輯迴歸屬於廣義線性模型,表達能力受限,單變量離散化爲N個後,每個變量有單獨的權重,相當於爲模型引入了非線性,能夠提升模型表達能力,加大擬合; (3)離散化後可以進行特徵交叉,由M+N個變量變爲M*N個變量,進一步引入
相關文章
相關標籤/搜索