一、識別缺失的數據大數據
二、檢查致使數據缺失的緣由spa
三、刪除包含缺失值的實例或用合理的數值代替(插補)缺失值對象
a、徹底隨機缺失it
若某變量的缺失數據與其餘任何觀測或未觀測變量都不相關,則數據爲徹底隨機缺失(MCAR),注意,若是每一個有缺失值的變量都是MCAR,那麼能夠將數據完整的實例看做對更大數據集的一個簡單隨機抽樣(即完整的觀測只是全數據的一個隨機樣本)變量
如:隨機數
有一份問卷調查,可是有一些項經常一同缺失,缺失的緣由是調查對象沒有意識到問卷背面還有信息須要填寫,可認爲這些確實就是MCAR方法
(由於是子集,背面未填寫的 樣本量的減小對統計檢驗效力不會形成嚴重影響)im
b、隨機缺失統計
若某變量上的缺失數據與其餘觀測變量相關,與它本身的未觀測值不相關,則數據爲隨機缺失(MAR)數據
如:
關於全球領導風格的調查中,學歷變量常常性的缺失,調查顯示歐洲的調查對象更可能在此項目上留白,這說明某些特定國家的調查對象並無理解變量的分類,此時,這種數據最多是MAR
c、非隨機缺失
若缺失數據不屬於MCAR和MAR,則數據爲非隨機數據缺失(NMAR)
如:
抑鬱症研究中,不少人不肯認可症狀,或者因爲抑鬱症自己致使沒法集中注意力,而忽略了這項,這種數據可認爲是 NMAR
大部分處理缺失數據的方法都是假定數據是 MCAR或MAR,此時能夠忽略缺失數據的生成機制,能夠處理後之間建模,當數據是NMAR,分析比較苦難,有 模型選擇法和模式混合法
處理缺失數據的方法:
識別缺失數據的數目、分佈和模式有兩個目的
a、分析生成缺失數據的潛在機制
b、評價缺失數據對回答實質性問題的影響
具體來說咱們要弄清楚如下幾個問題
一、缺失數據的比例多大?
二、缺失數據是否集中在少數幾個變量上亦或普遍存在
三、缺失是隨機產生的嗎?
四、缺失數據間的相關性或可觀測數據間的相關性,是否能夠代表產生缺失值的機制?
回答這些問題,而後判斷用哪一種統計方法來分析數據