|
问题:进行参数统计分析,比如方差分析时,是否一定要满足正态性和方差齐性等条件呢?
如果不满足这些条件而直接进行方差分析,会多大程度影响统计分析结果?
各网友的解答:1 不满足当然就不能直接再进行方差分析啦,不然不讲条件的话,大家就都滥用统计方法啦
不满足之后的处理有很多办法,最常用的当然就是数据变换,
或者换用其他方法,比如一般线性模型GLM
或者也可以采用非参的方法,如采用秩次的方差分析
当然这些又都有自己的应用条件,自己可以参考一下
2 按照卫生统计的教材,t检验和f检验都需要,正态齐以及方差齐的条件,不过现在比较注重方差齐,正态性不是那么重要,可以只做方差其性检验.不满足考虑变量变换或者秩和检验.
3 根据大数定律(或中心极限定律)是可以保证在样本量较大时满足正态性的,比如,通常n>=50,根据大数定律,就基本可以大致认为资料服从正态性,而不去太多参考一些正态性检验的结果,如K-S检验等
但方差齐性似乎没有这种近似的经验可供参考,一般是考虑数据变换,不行的话还是得换用其他方法!
4 具体条件,具体分析。三种方案可选,转换、非参和忽略,我的经验是因势而异。
5 可以先做,再看diagnose,再考虑结果与专业解释,再考虑拟合其它模型,再分析比较,再进一步拟合,再分析比较。
目前常见的回归,对正态性要求最少,因为对结果的影响不大,方差齐性,比较robust,而对线性,考虑GLM,而对非独立性,要求最严。好再有GEE,还有MIXED MODEL。所以对回归后的diagnose是非常重要,残差是非常重要的东西,但目前教材讲的比较少,当然这一部分也是activites field。所以没有一个最终的解释,理解原理,学会解释,学习方法。
方差分析的原理是关键。其它只不过是不同的拟合方法。先做后看 不断调整
6 是的,只有通过残差的诊断和相关的检验,你才可能找到异常值或离群值,也才通过相关命令知道应该如何转换数据,也才能说方差分析后存在异质性等等信息。另外我请大家注意,如果y是连续变量,X1有2个水平的分类变量,X2有3个水平的分类变量,做方差时正态性是指Y变量正态分布呢,还是X1两个水平正态分布呢,还是X1和X2的combination的6个subpopulation正态分布呢,还是指残差正态分布呢?
方差齐性又具体指的是什么呢?
搞清楚这个问题,你有些方法学上的东西就清楚了。
[ 本帖整理自公卫人论坛 ] |
|