MATLAB數據分析與挖掘 -- 數據探索篇

數據質量分析 主要是檢查原始數據中是否存在髒數據,並做相應的處理,是數據預處理的前提,主要包括以下幾種: 缺失值:記錄的缺失或某個字段信息的缺失,一般的做法是刪除、插補或者不作處理。 異常值:也即離羣點,常用簡單統計分析,3 σ \sigma σ原則,箱圖分析。 1、簡單統計分析:先對變量做一個描述性統計,進而查看哪些數據是不合理的,如199歲的年齡顯然不合理); 2、3 σ \sigma σ原則
相關文章
相關標籤/搜索