數據預處理之缺失值處理

缺失值產生原因 數據集中部分數據的缺失是一件很頭疼的事情,不但增大了數據集的不確定性,也影響了算法的執行。缺失值產生的原因主要有以下幾點: 1.有些信息暫時無法獲取,或獲取信息的成本過高 2.信息遺漏,即人爲的原因,如收集信息不認真、忘記填寫信息等 3.缺失值本身就不存在,比如單身狗的女朋友 缺失值的影響 1.數據集丟失了大量的信息 2.數據集表現出的不確定性增大,使得獲取數據潛在規律的難度加大
相關文章
相關標籤/搜索