數據清洗主要是刪除原始數據集中的無關數據、重複數據,過濾與挖掘主題無關的數據,處理缺失值和異常值。python
缺失值的處理辦法函數
一、不處理spa
二、刪除記錄blog
三、數據插補class
a、插補均值、中位數、衆數方法
b、使用固定值,用一個常量替換。如一個普通工人的工資缺失,能夠按照當地的工資標準給值im
c、最近插補:利用與缺失樣本最接近的樣本的該屬性值插補數據
d、迴歸插補:創建擬合模型預測缺失值異常
e、插值法img
插值法主要有兩種:拉格朗日插值法和牛頓插值法
拉格朗日插值法就是將樣本代入差值多項式,求解近似值。
牛頓插值法也是多項式的差值,可是採用的構造方法不一樣f(x)=P(x)+R(x),前一項爲逼近函數,後一項爲偏差函數。咱們能夠用python來實現拉格朗日插值法。
這種插值法,若是插第一個值,會發現獲得的結果是負數,明顯不符合實際狀況,因此還須要修正的。
異常值的處理辦法
一、刪除含有異常值的記錄
二、視爲缺失值
三、平均值修正
四、不處理