處理缺失數據的高級方法

時間 2019-12-20

標籤處理缺失數據高級方法简体版

原文原文鏈接

處理缺失值的基本步驟

一、識別缺失的數據大數據

二、檢查致使數據缺失的緣由spa

三、刪除包含缺失值的實例或用合理的數值代替（插補）缺失值對象

缺失數據的分類

a、徹底隨機缺失it

若某變量的缺失數據與其餘任何觀測或未觀測變量都不相關，則數據爲徹底隨機缺失（MCAR），注意，若是每一個有缺失值的變量都是MCAR，那麼能夠將數據完整的實例看做對更大數據集的一個簡單隨機抽樣（即完整的觀測只是全數據的一個隨機樣本）變量

如：隨機數

有一份問卷調查，可是有一些項經常一同缺失，缺失的緣由是調查對象沒有意識到問卷背面還有信息須要填寫，可認爲這些確實就是MCAR方法

（由於是子集，背面未填寫的樣本量的減小對統計檢驗效力不會形成嚴重影響）im

b、隨機缺失統計

若某變量上的缺失數據與其餘觀測變量相關，與它本身的未觀測值不相關，則數據爲隨機缺失（MAR）數據

如：

關於全球領導風格的調查中，學歷變量常常性的缺失，調查顯示歐洲的調查對象更可能在此項目上留白，這說明某些特定國家的調查對象並無理解變量的分類，此時，這種數據最多是MAR

c、非隨機缺失

若缺失數據不屬於MCAR和MAR，則數據爲非隨機數據缺失（NMAR）

如：

抑鬱症研究中，不少人不肯認可症狀，或者因爲抑鬱症自己致使沒法集中注意力，而忽略了這項，這種數據可認爲是 NMAR

大部分處理缺失數據的方法都是假定數據是 MCAR或MAR，此時能夠忽略缺失數據的生成機制，能夠處理後之間建模，當數據是NMAR，分析比較苦難，有 模型選擇法和模式混合法

處理缺失數據的方法：

理解缺失數據的由來和影響

識別缺失數據的數目、分佈和模式有兩個目的

a、分析生成缺失數據的潛在機制

b、評價缺失數據對回答實質性問題的影響

具體來說咱們要弄清楚如下幾個問題

一、缺失數據的比例多大？

二、缺失數據是否集中在少數幾個變量上亦或普遍存在

三、缺失是隨機產生的嗎？

四、缺失數據間的相關性或可觀測數據間的相關性，是否能夠代表產生缺失值的機制？

回答這些問題，而後判斷用哪一種統計方法來分析數據

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。