如何处理缺失值

linxiuquan001 · 发表于 2009-3-20 13:45:53

缺失值(missing data)大致上可分为三种型态,MNAR (missing not at random)指缺失值不是随机的,有可能是问卷的设计,比如说,年收入大于十万请回答A题,小于十万请回答B题,这类的缺失是设计上的,不能称作随机缺失.另一种叫MAR(missing at random),指缺失和前面的回答有某些程度的相关,这类的缺失很难界定或测试,第三种叫MCAR(missing completely at random),这种就是称作随机的缺失,这种缺失和其它的数据完全是独立的.第三种缺失相对的比较容易处理.

回到你的问题,如果你的样本够大的话,把有缺失的样本完全去除,这种方法叫作listwise deletion.如果你能够确信你的样本的缺失值是MCAR,你又没有足够的样本的话,你可用填补的方法(imputation).通常你可填上平均值,或者回归的预测值,这两种方法都有它的缺点.SPSS有个MISSING DATA MODULE,就是用EM(expectation and maximization)的填补,它的方法是把有同样缺失的样本放在同一组,计算它的covariance matrix,然後再跟据每组的样本数来较正它对整个样本的权重(weight),从这里再重新填补每个缺失值.这重方法算是现在比较精确的缺失值填补的方法.

（a）将有缺失值的个案删除
将有缺失值的个案删除的方法，结果可能会导致样本量的减少，如果调查在收集过程中控制得不是很好，被访对象多多少少都会出现一些问题没有回答的情况，删除个案的方法，会导致大量的样本减少。这种方式在数据缺失非常少的情况下是可行的，但如果各个项目中都有少数的数据缺失存在，对所有缺失的记录都进行删除可能就会使总样本量变得非常小，从而损失许多有用信息。对于SPSS, 通常有Pairwise 和Listwise两种方法。Pairwise就是将要分析的变量两两配对，如果在任意一对中，有变量是缺失的，就将此对删除。而Listwise是对整条记录来说的，如果在此记录中有任意一个变量是缺失的，就要将此记录整条删除。
（b）将有缺失值的个案保留，仅在相应的分析中做必要的删除
将有缺失值的个案保留，仅在相应的分析中做必要的排除的方法，会使分析中不同计算的样本量不同，也有可能导致不适宜的结果。调查的样本量比较大，缺失值的数量又不是很多，而且变量之间也不存在高度的相关的情况下，市场研究者经常采用这种方式处理缺失值。
插值处理方法
所谓插值，是指人为地用一个数值去替代缺失的数值。
（a）用一个样本统计量的值代替缺失值
　　缺失值可以使用一个样本的统计量去代替，最典型的做法就是使用该变量的样本平均值。由于该变量的平均值保持不变，其他的统计量如标准差、相关系数等都不会受到影响。如在收入或者年龄问题中出现缺失值，可以使用收入、年龄的平均值代替缺失值。
（b）用从一个统计模型计算出来的值去代替缺失值
　　另一种缺失值的处理方法就是利用由某些统计模型计算得到的比较合理的值代替，常使用的模型有回归模型、判别模型等等。如“个人收入”、“年龄”与“品牌的选择”可能存在关系，利用这三个问题的被访者问答数据，可能构造出一个回归方程。根据这个回归方程，对于没有回答“品牌选择”的被访者，可以根据“个人收入”和“年龄”的选项，利用回归方程式，计算出品牌选择的值。从这一基本思想，引申出一些复杂的处理方法如Multiple imputations, Expectation-Maximization, 都是为了增强插值的准确度。对SPSS来说，现在的版本支持Regression和EM(Expectation-Maximization)。

[ 本帖整理自丁香园 ]

帐号		自动登录	找回密码
密码			立即注册