统计211

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 8889|回复: 2
打印 上一主题 下一主题

请问大量数据中的异常值该如何处理?

[复制链接]
跳转到指定楼层
1
发表于 2010-3-14 22:53:06 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
数据有五千多个,做箱形图之后得出的奇异值和极端值也有几十个,该用什么方法处理?
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
2
发表于 2010-3-15 10:17:36 | 只看该作者
本帖最后由 275932488 于 2010-3-15 10:23 编辑

1# libbyreina

个人觉得应该确认一下是什么原因引起的,再采取相应的补救措施。给你一篇文章,仅供参考!

文章节选:
2. 2 奇异值(out liers) 和极端值(extreme values)  奇异值和极端值是指各变量中与整体数据相距太远的极值, 由于它的夸大作用, 常常会歪曲统计结果, 导致犯一类和二类错误. 通常有四种原因可导致奇异值的出现: (1) 数据输入时出错; (2)在不同数据格式之间进行转换时, 缺失值处的数码代号被当成了实际观测值; (3) 出现奇异值的样本并非属于所要考察的总体; (4) 考察的样本相对于正态分布有比较多的极值.
2. 2. 1 奇异值和极端值的检测 用柱状图、箱式图、茎叶图、正态检验的QQ图等检测有无极端值和奇异值. 以箱式图为例, 箱式图中都标有奇异值的行号, 看不清时可拖动边框将箱式图放大查看.
2. 2. 2 减少奇异值和极端值影响的方法:(1) 将奇异值和极端值作为缺失值处理: 在“variable view ”视图中点击“missing”栏下含有奇异值和极端值的变量, 弹出“missing values”对话框, 有3 个选项可以使用: (a)“discrete missingvalues”最多可以指定3 个数值为缺失值, (b)“range of missing values”指定某一取值范围内的数值为缺失值; (c)“range plus one optional discrete missing”指定某一取值范围和某一特定数值为缺失值; (2) 根据检测的奇异值和极端值, 用“data:select cases”工具中的“if??”对数据的取值范围进行限定,然后再进行统计分析; (3) 对奇异值进行估计. 方法同缺失值
的估计; (4) 将原始数据转换成标准Z分数或进行其他的转换后再进行统计分析; (5) 删除奇异值所在的观察单位.

SPSS在心理数据检查与筛选中的应用.pdf

94.22 KB, 下载次数: 5

3
 楼主| 发表于 2010-3-15 11:19:45 | 只看该作者
2# 275932488


谢谢,再试试看。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


免责声明|关于我们|小黑屋|联系我们|赞助我们|统计211 ( 闽ICP备09019626号  

GMT+8, 2025-4-6 23:12 , Processed in 0.085443 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表