處理缺失數據的高級方法

  • 處理缺失值的基本步驟

一、識別缺失的數據大數據

二、檢查致使數據缺失的緣由spa

三、刪除包含缺失值的實例或用合理的數值代替(插補)缺失值對象

  • 缺失數據的分類

a、徹底隨機缺失it

若某變量的缺失數據與其餘任何觀測或未觀測變量都不相關,則數據爲徹底隨機缺失(MCAR),注意,若是每一個有缺失值的變量都是MCAR,那麼能夠將數據完整的實例看做對更大數據集的一個簡單隨機抽樣(即完整的觀測只是全數據的一個隨機樣本)變量

如:隨機數

有一份問卷調查,可是有一些項經常一同缺失,缺失的緣由是調查對象沒有意識到問卷背面還有信息須要填寫,可認爲這些確實就是MCAR方法

(由於是子集,背面未填寫的 樣本量的減小對統計檢驗效力不會形成嚴重影響im

 

b、隨機缺失統計

若某變量上的缺失數據與其餘觀測變量相關,與它本身的未觀測值不相關,則數據爲隨機缺失(MAR)數據

如:

關於全球領導風格的調查中,學歷變量常常性的缺失,調查顯示歐洲的調查對象更可能在此項目上留白,這說明某些特定國家的調查對象並無理解變量的分類,此時,這種數據最多是MAR

 

c、非隨機缺失

若缺失數據不屬於MCAR和MAR,則數據爲非隨機數據缺失(NMAR)

如:

抑鬱症研究中,不少人不肯認可症狀,或者因爲抑鬱症自己致使沒法集中注意力,而忽略了這項,這種數據可認爲是 NMAR

 

大部分處理缺失數據的方法都是假定數據是 MCAR或MAR,此時能夠忽略缺失數據的生成機制,能夠處理後之間建模,當數據是NMAR,分析比較苦難,有 模型選擇法和模式混合法

 

處理缺失數據的方法:

 

  • 理解缺失數據的由來和影響

識別缺失數據的數目、分佈和模式有兩個目的

a、分析生成缺失數據的潛在機制

b、評價缺失數據對回答實質性問題的影響

具體來說咱們要弄清楚如下幾個問題

一、缺失數據的比例多大?

二、缺失數據是否集中在少數幾個變量上亦或普遍存在

三、缺失是隨機產生的嗎?

四、缺失數據間的相關性或可觀測數據間的相關性,是否能夠代表產生缺失值的機制?

回答這些問題,而後判斷用哪一種統計方法來分析數據

相關文章
相關標籤/搜索