异常值处理的常用方法

来源:互联网 发布:sql loader 704 编辑:程序博客网 时间:2024/06/07 16:33

(1)直接将该条观测删除

在SPSS软件里有2种不同的删除方法,整条删除和成对删除。

当然,这种方法简单易行,但缺点也很明显,首先我们经常会遇到的情况是观测值很少,这种删除会造成样本量不足,其次,直接删除的观测很多,也可能会改变变量的原有分布,从而造成统计模型不够稳定。

   (2)暂且保留,待结合整体模型综合分析

    通常我们观测到的异常值,有时在对于整个模型而言,其异常性质并没有观测到的明显,因此最好综合分析一下,像回归分析,我们经常利用残差分布信息来判断模型优劣,残差有没有超出经验范围(+3标准差),呈现什么分布等,另外对于整个模型而言,会有一些指标像Mahalanobis、Cook's、协方差比率等可以提供某条观测或整体的拟合信息,这些指标也会提示分析人员的异常值信息。如果对于整个模型而言,并不是很明显时,建议保留。

   (3)如果样本量很小,可以考虑使用均值或其他统计量取代

这不失为一种折中的方法,大部分的参数方法是针对均值来建模的,用均值取代,实际上克服了丢失样本的缺陷,但却丢失了样本“特色”,可以说是不大不小的错误。当然如果是时序数据,用于取代的统计量,可供选择的范围就会多一些,可以针对序列选择合适的统计量取代异常值,也较少存在上述问题。

   (4)将其视为缺失值,利用统计模型填补

该方法的好处是可以利用现有变量的信息,对异常值(缺失值)填补。不过这里最好要视该异常值(缺失值)的特点而定,例如需视是完全随机缺失、随机缺失还是非随机缺失的不同情况而定。

   (5)不做过多处理,根据其性质特点,使用稳健模型加以修饰

如果按参数性质分的话,可以将稳健方法分为参数、非参和半参3种情况,这大致与通常的关于参数的假设、优点一样,请参见:

   (6)使用抽样技术或模拟技术,接受更合理的标准误等信息

抽样样本(SPSS默认是1000)所计算出的均值的标准误,一般来说会更合理,这可以有效应对异常值的影响,但前提是原始样本量不能太少(小于10),小样本的结果不够稳定。另外模拟技术可以利用先验分布特征和样本信息来构建事后预测的概率分布,进行事后模拟,这种技术现在发展的很好,在异常值的应对中,表现良好。

原创粉丝点击