機器學習——數據預處理(Preprocessing)

1、缺失值處理 刪除包含缺失值的一整列 當該列種的大部分數據都缺失時可採用該方式,如果只有個別數據缺失,直接刪除整列會導致大量信息丟失 填充缺失值 往缺失值中填入相關數據,例如:列均值、中位數等 填充值往往比直接刪除整列數據有更好的效果 擴展填充 直接填充缺失值往往和實際的值之間有所差別,加入一列記錄原始數據是否缺失可能會對預測結果有更好的效果 2、分類變量的預處理 在使用分類變量(特徵)搭建機器
相關文章
相關標籤/搜索