分箱操作

在建模中,需要對連續變量離散化,特徵離散化後,模型會更穩定,降低了模型過擬合的風險。 無監督分箱法: 等距劃分、等頻劃分 等距分箱  從最小值到最大值之間,均分爲 N 等份, 這樣, 如果 A,B 爲最小最大值, 則每個區間的長度爲 W=(B−A)/N , 則區間邊界值爲A+W,A+2W,….A+(N−1)W 。這裏只考慮邊界,每個等份裏面的實例數量可能不等。    等頻分箱  區間的邊界值要經過
相關文章
相關標籤/搜索