多元统计中的一些疑问讨论

xuying · 发表于 2009-6-28 15:18:50

1）因子分析和聚类分析，本质上都可以用于变量的分类，两者有何区别？

赵教授的解答：因子分析本质上是对原始变量在某些正交潜变量（公因子）进行成分分解（可以理解为对各个原始变量自身变异在这些公因子上的分解或分类），与变量分类是有差别的，聚类对各个变量间或样本按照某种性质（如距离或相关性）进行分类合并，两者有本质上差异。

方教授的解答：因子分析对变量进行分类是基于变量的共性成分（也即公因子），撇开了变量的特异性的部分，而聚类分析对变量进行分类是基于变量本身的性质（意义上即是：即包括共性成分，也包括特异成分），所以还是有区别，但是两种方法对变量分类时，大致方向基本一致。
2）典则相关的时候，假定有6个自变量（X1-X6），因此可以在X1-X6中提取6个主成份，同时假定有6个因变量（Y1-Y6），因此也可以在Y1-Y6中提取6个主成份，将X1-X6中提取到的6个主成份与从Y1-Y6中提取到的6个主成份进行任意两两组合来计算相关系数，肯定是可以得到一个最大的相关系数，该相关系数与采用典则相关得到的第一对典则变量之间的相关系数之间有什么关系？是不是一致的？

赵教授的解答：典则相关与主成分分析的最优化目标不同：主成分分析是寻找变量之间的线性组合达到变异最大（组合后的变量信息量最大），与其他变量没有关系。典型相关是由两组变量分别进行线性组合，寻求两个线性组合变量之间的相关系数达到最大，即：典型相关是两组变量之间的最大相关性的问题，所以两者所扮演的角色和目标都不同，无法对应可比和对应的。

方教授的解答：不一致，主成份分析的基本思想是基于方差最大化，而典则相关的基本思想是基于相关系数最大，虽然按照主成分分析能够得到一个最大的相关系数，即使它看上去是6×6得到的36中组合中的最大值，但是也远远不及典则分析采用的所有组合（到底是多少，6的6次方吗？比这还要多.但不是穷举的结果,而是数学推导的结果.可见考的主要是数学, 电脑只是实现数学解而已）得到的最大值所以还是不一样。
3）虽然在二分类的时候，Bayes判别与Fisher判别是完全一致的，但是既然一致，为什么提出一种判别后，还要再去创造一种新的判别方法？

赵教授的解答：判别失误最小不一定损失最小，当判别最小与损失最小时，对于两类判别分析而言，Bayes判别与Fisher判别是等价的，Bayes判别主要通过建立损失函数，通过判别失误达到最小为目标进行判别模型拟合，使得到的判别结果所导致的损失达到最小，所以当建立损失函数与判别失误不等价时，两种判别分析方法就不一致了，所以要根据研究目标选择方法。即使用新资料验证，也有一个评价标准：判别失误最小还是判别失误导致损失最小的问题
方教授的解答: 在某些方面等价,并不意味着完全一样; 而且两个方法都出现后, 人们才讨论其共性.
（两者之间，或者拓展到采用logistic回归进行判别，这些判别方法在判别效果上本质上有没有区别？或者在实际的资料中，我们如何选择一种判别方法，是要将所有的判别方法都使用一下，然后分别根据实际值和理论值的差异大小来判断哪一种办法更好吗？用新的资料来验证是最好的办法 (external validation)）。

[ 本帖整理自公卫人论坛 ]

帐号		自动登录	找回密码
密码			立即注册