數據分箱概念與python實現

數據分箱指的是將連續數據離散化。 離散化對異常值具有魯棒性,運算更快方便存儲,而且特徵可變性更強方便迭代,特徵離散後的模型更加穩定。   在這裏主要介紹卡方分箱: 1.先確定最終分幾個箱,也就是最後分幾個離散值。 2.如果變量樣本大於100,那麼先等距的劃分爲100箱。 3.計算每一對相鄰箱間的卡方值 4.將卡方值最小的兩個區間合併,一直重複3-4直到滿足最終分箱個數。   二、分箱評估 通過IV
相關文章
相關標籤/搜索