统计211

标题: 请问大量数据中的异常值该如何处理? [打印本页]

作者: libbyreina    时间: 2010-3-14 22:53
标题: 请问大量数据中的异常值该如何处理?
数据有五千多个,做箱形图之后得出的奇异值和极端值也有几十个,该用什么方法处理?
作者: 275932488    时间: 2010-3-15 10:17
本帖最后由 275932488 于 2010-3-15 10:23 编辑

1# libbyreina

个人觉得应该确认一下是什么原因引起的,再采取相应的补救措施。给你一篇文章,仅供参考!

文章节选:
2. 2 奇异值(out liers) 和极端值(extreme values)  奇异值和极端值是指各变量中与整体数据相距太远的极值, 由于它的夸大作用, 常常会歪曲统计结果, 导致犯一类和二类错误. 通常有四种原因可导致奇异值的出现: (1) 数据输入时出错; (2)在不同数据格式之间进行转换时, 缺失值处的数码代号被当成了实际观测值; (3) 出现奇异值的样本并非属于所要考察的总体; (4) 考察的样本相对于正态分布有比较多的极值.
2. 2. 1 奇异值和极端值的检测 用柱状图、箱式图、茎叶图、正态检验的QQ图等检测有无极端值和奇异值. 以箱式图为例, 箱式图中都标有奇异值的行号, 看不清时可拖动边框将箱式图放大查看.
2. 2. 2 减少奇异值和极端值影响的方法:(1) 将奇异值和极端值作为缺失值处理: 在“variable view ”视图中点击“missing”栏下含有奇异值和极端值的变量, 弹出“missing values”对话框, 有3 个选项可以使用: (a)“discrete missingvalues”最多可以指定3 个数值为缺失值, (b)“range of missing values”指定某一取值范围内的数值为缺失值; (c)“range plus one optional discrete missing”指定某一取值范围和某一特定数值为缺失值; (2) 根据检测的奇异值和极端值, 用“data:select cases”工具中的“if??”对数据的取值范围进行限定,然后再进行统计分析; (3) 对奇异值进行估计. 方法同缺失值
的估计; (4) 将原始数据转换成标准Z分数或进行其他的转换后再进行统计分析; (5) 删除奇异值所在的观察单位.

SPSS在心理数据检查与筛选中的应用.pdf

94.22 KB, 下载次数: 5


作者: libbyreina    时间: 2010-3-15 11:19
2# 275932488


谢谢,再试试看。




欢迎光临 统计211 (http://tj211.com/) Powered by Discuz! X3.2