數據預處理之缺失值、異常值處理

缺失值的檢查與處理應該來說是比較簡單的,這篇先來說說異常值的檢查與處理

一、異常值的檢查

異常值的檢查,最初我都是作圖觀察,把那些明顯偏離了整體分佈情況的點劃歸爲異常點,這樣的做法也帶有比較強的主觀性。

這邊補充一些用來判斷異常值的統計學方法。


1、基於正態分佈的一元離羣點檢測方法

假設有 n 個點 ,那麼可以計算出這 n 個點的均值  和方差。均值和方差分別被定義爲:


                                         

在正態分佈的假設下,區域 正負三個標準差 包含了99.7% 的數據,如果某個值距離分佈的均值  超過了三個標準差,那麼這個值就可以被簡單的標記爲一個異常點(outlier)。


2、箱線圖

箱線圖是利用數據中的五個統計量:最小值、第一四分位數、中位數、第三四分位數與最大值來描述數據的一種方法。箱線圖無需對數據進行正態分佈要求。適用範圍廣。