【匯】連續變量的常用分箱測試方法:等頻、等距、best_ks、卡方

分箱的基評估標準是依靠WOE與IV值,常用的方法是等頻、等距、best_ks、卡方。 決策樹裏對於連續值採用信息熵、信息增益率、方差、基尼係數等來進行拆分的選擇。 它們本質上是一樣的,都是爲了尋找最佳的拆分方式,具有最好的表達能力。只不過一個不是用模型能力表現,一個是用模型能力表現。 等頻分箱 對連續變量從小到大排序,使用頻次百分比qcut分割的方式對連續變量進行分箱,使得每個區間具有數量相同的樣
相關文章
相關標籤/搜索