【數據建模 特徵分箱】特徵分箱的方法

在建模中,需要對連續變量離散化,特徵離散化後,模型會更穩定,降低了模型過擬合的風險。 有監督的卡方分箱法(ChiMerge) 自底向上的(即基於合併的)數據離散化方法。 它依賴於卡方檢驗:具有最小卡方值的相鄰區間合併在一起,直到滿足確定的停止準則。 基本思想: 對於精確的離散化,相對類頻率在一個區間內應當完全一致。因此,如果兩個相鄰的區間具有非常類似的類分佈,則這兩個區間可以合併;否則,它們應當保
相關文章
相關標籤/搜索