统计211
标题:
聚类分析在SAS中的简单应用
[打印本页]
作者:
amoyzz
时间:
2016-4-22 22:06
标题:
聚类分析在SAS中的简单应用
昨天我们简单介绍了聚类分析这个统计方法,此方法在SPSS中的应用比较简单,很多教科书通过前面的讲解我们已经知道。今天这篇文章主要介绍聚类分析在SAS中的简单应用~涉及到如下几个步:
1) 计算距离:proc distance
2) 数据标准化:proc stdize
3) 选择变量:proc varclus
4) 初始类别数的选择:proc mds和proc princomp
5) 算法的选择:层次聚类-proc cluster, K-means聚类-proc fastclus
proc distance
我们知道数据变量分四类:名义变量、等级变量、连续型变量和ratio变量(定比变量)。但sas里面,目前的聚类算法都要求变量是ratio变量。对于离散变量,一种想法自然是把所有的离散变量都转成0-1变量。这会有如下几个问题:
1) 变量的信息可能会有损失,次序难保留;
2) 当离散变量的取值非常多时,造成很多处理上的不便;
3) 0-1变量没法做标准化等等一些运算,因为这种运算其实是没有意义的
解决以上问题,需要答采用的就是“proc distance”。针对离散变量定义有意义的距离(对离散变量和连续变量混合类型的数据)。Proc distance就是用来算这种距离的一个过程。距离或者相似度可以看成是连续数据,自然就可以用sas里面的聚类算法了。
proc stdize
聚类算法首先要算距离,然后再通过距离来执行后续的计算。在距离计算的过程中,方差比较大的变量影响会很大。对此,有必要将参与聚类的变量转换成方差尽量相同的变量。Proc stdize就能实现这种功能。Proc stdize不仅提供了将变量转换了均值为0,方差转换为1的标准化,还提供了很多其它类型的标准化。比如,range标准化(变量减去最小值除以最大值和最小值得差)
proc varclus
在做回归分析的时候,我们知道变量过多会有两个问题:
1) 影响预测的准确,尤其当无关紧要的变量引入模型之后;
2) 引起变量之间的共线性,这个会影响参数估计的精度
聚类分析实际上也存在类似的问题,所以有必要先对变量做降维。说到降维,马上有人会想到主成分分析啊,当然是这是个好选择。但是主成分的解释性还是有点差。尤其是第二主成分之后的主成分。那用什么比较好呢?答案是proc varclus——斜交主成分。
我们常说的主成分实际上是“正交主成分”。“斜交主成分”是在“正交主成分”的基础上再做了一些旋转。这样得到的主成分不仅能保留主成分的优点,又能有很到的解释性,并且能达到对变量聚类的效果。使同类别里面的变量尽可能相关程度比较高,不同类别里面的变量相关程度尽可能低。这样根据一定的规则我们就可以在每个类别里面选取一些有代表性的变量,有效提升聚类分析的精度。
proc mds 和proc princomp
将原始数据降到两维,通过图形探测整个数据聚类后大致大类别数
proc aceclus
聚类算法尤其是k-means算法要求聚类数据是球形数据。如果是细长型的数据或者非凸型数据,这些算法的表现就会相当差。一个很自然的变通想法就是,能不能将非球形数据变换成球形数据呢?答案是可以的。这就要用到proc aceclus。
欢迎光临 统计211 (http://tj211.com/)
Powered by Discuz! X3.2