數據分箱的經常使用方法

假設要將某個自變量的觀測值分爲k個分箱,一些經常使用的分箱方法有:1.無監督分箱(1)等寬分箱:將變量的取值範圍分爲k個等寬的區間,每一個區間看成一個分箱。ip (2)等頻分箱:把觀測值按照從小到大的順序排列,根據觀測的個數等分爲k部分,每部分看成一個分箱,例如,數值最小的1/k比例的觀測造成第一個分箱,等等。io (3)基於k均值聚類的分箱:使用第五章將介紹的k均值聚類法將觀測值聚爲k類,但在聚
相關文章
相關標籤/搜索