數據預處理之異常值處理

定義: 異常值,即在數據集中存在不合理的值,又稱離羣點。比如年齡爲-1,筆記本電腦重量爲1噸等,都屬於異常值的範圍。從集合角度來看,異常值即離羣點,如下圖所示: 判別方法: 1.簡單統計分析 對屬性值進行一個描述性的統計,從而查看哪些值是不合理的。比如對年齡這個屬性進行規約:年齡的區間在[0:200],如果樣本中的年齡值不再該區間範圍內,則表示該樣本的年齡屬性屬於異常值。 2. 3δ原則 當數據服
相關文章
相關標籤/搜索