數據探索(一)之數據質量分析

數據質量分析的主要任務是檢查原始數據中是否存在髒數據。髒數據一般是指不符合要求以及不能直接就行應用分析的數據。髒數據包括:缺失值、異常值、不一致的值、重複數據以及含有特殊符號(#、¥、*)的數據。 1.缺失值分析   缺失值是指某個記錄的缺失或者記錄中的某個字段信息的缺失,如某小區居住人員信息統計數據中的某些居民數據的缺失或者某位居民數據中年齡或性別的缺失。   缺失值產生的原因主要有三點:1.有
相關文章
相關標籤/搜索