04 數據清洗和轉換

大部分機器學習模型處理的都是特徵,是實際工作中最耗時的一部分。大部分情況下,收集到的數據需要經過預處理後才能被後續的機器學習算法所使用。 一、數據預處理包括以下幾個步驟 1、數據過濾 比如用戶ID是一個唯一值,當出現兩個相同的用戶ID就需要過濾掉一個。 2、處理數據缺失 如果有500個樣本,其中第230個樣本的某個數據缺失,我們可以考慮使用總體樣本的平均值、中位數(Mediam,所有數據值從大到小
相關文章
相關標籤/搜索