缺失值的處理

目前有三類處理方法:1. 用平均值、中值、分位數、衆數、隨機值等替代。效果一般,因爲等於人爲增加了噪聲。2. 用其他變量做預測模型來算出缺失變量。效果比方法1略好。有一個根本缺陷,如果其他變量和缺失變量無關,則預測的結果無意義。如果預測結果相當準確,則又說明這個變量是沒必要加入建模的。一般情況下,介於兩者之間。3. 最精確的做法,把變量映射到高維空間。比如性別,有男、女、缺失三種情況,則映射成3個
相關文章
相關標籤/搜索