數據清洗的幾種經常使用手段

    數據清洗主要是刪除原始數據集中的無關數據、重複數據,過濾與挖掘主題無關的數據,處理缺失值和異常值。python

 

缺失值的處理辦法函數

 

    一、不處理spa

    二、刪除記錄blog

    三、數據插補class

      a、插補均值、中位數、衆數方法

      b、使用固定值,用一個常量替換。如一個普通工人的工資缺失,能夠按照當地的工資標準給值im

      c、最近插補:利用與缺失樣本最接近的樣本的該屬性值插補數據

      d、迴歸插補:創建擬合模型預測缺失值異常

      e、插值法img

 

    插值法主要有兩種:拉格朗日插值法和牛頓插值法

    拉格朗日插值法就是將樣本代入差值多項式,求解近似值。

    牛頓插值法也是多項式的差值,可是採用的構造方法不一樣f(x)=P(x)+R(x),前一項爲逼近函數,後一項爲偏差函數。咱們能夠用python來實現拉格朗日插值法。

 

                                                                        

 

    這種插值法,若是插第一個值,會發現獲得的結果是負數,明顯不符合實際狀況,因此還須要修正的。

 

異常值的處理辦法

 

    一、刪除含有異常值的記錄

    二、視爲缺失值

    三、平均值修正

    四、不處理

相關文章
相關標籤/搜索