|
本帖最后由 275932488 于 2010-3-15 10:23 编辑
1# libbyreina
个人觉得应该确认一下是什么原因引起的,再采取相应的补救措施。给你一篇文章,仅供参考!
文章节选:
2. 2 奇异值(out liers) 和极端值(extreme values) 奇异值和极端值是指各变量中与整体数据相距太远的极值, 由于它的夸大作用, 常常会歪曲统计结果, 导致犯一类和二类错误. 通常有四种原因可导致奇异值的出现: (1) 数据输入时出错; (2)在不同数据格式之间进行转换时, 缺失值处的数码代号被当成了实际观测值; (3) 出现奇异值的样本并非属于所要考察的总体; (4) 考察的样本相对于正态分布有比较多的极值.
2. 2. 1 奇异值和极端值的检测 用柱状图、箱式图、茎叶图、正态检验的QQ图等检测有无极端值和奇异值. 以箱式图为例, 箱式图中都标有奇异值的行号, 看不清时可拖动边框将箱式图放大查看.
2. 2. 2 减少奇异值和极端值影响的方法:(1) 将奇异值和极端值作为缺失值处理: 在“variable view ”视图中点击“missing”栏下含有奇异值和极端值的变量, 弹出“missing values”对话框, 有3 个选项可以使用: (a)“discrete missingvalues”最多可以指定3 个数值为缺失值, (b)“range of missing values”指定某一取值范围内的数值为缺失值; (c)“range plus one optional discrete missing”指定某一取值范围和某一特定数值为缺失值; (2) 根据检测的奇异值和极端值, 用“data:select cases”工具中的“if??”对数据的取值范围进行限定,然后再进行统计分析; (3) 对奇异值进行估计. 方法同缺失值
的估计; (4) 将原始数据转换成标准Z分数或进行其他的转换后再进行统计分析; (5) 删除奇异值所在的观察单位. |
|