task3-數據分箱

卡方分箱 卡方分箱是自底向上的(即基於合併的)數據離散化方法。它依賴於卡方檢驗:具有最小卡方值的相鄰區間合併在一起,直到滿足確定的停止準則。 基本思想:對於精確的離散化,相對類頻率在一個區間內應當完全一致。因此,如果兩個相鄰的區間具有非常類似的類分佈,則這兩個區間可以合併;否則,它們應當保持分開。而低卡方值表明它們具有相似的類分佈。 這裏需要注意初始化時需要對實例進行排序,在排序的基礎上進行合併。
相關文章
相關標籤/搜索