统计211

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 5204|回复: 0
打印 上一主题 下一主题

聚类分析简介

[复制链接]
跳转到指定楼层
1
发表于 2016-4-21 16:16:12 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 amoyzz 于 2016-5-11 08:57 编辑

一、定义
聚类分析:cluster analysis,是一种分类的多元统计分析方法。按照个体或样品的特征将它们分类,使同一类别内的个体有尽可能高的同质性(homogeneity),而类别之间则应有尽可能高的异质性(heterogeneity)。
俗话说:“物以类聚,人以群分”,聚类分析是一种重要的多变量统计方法,但请记住,它仅仅是一种数据分析方法,不能进行统计推断的,也就是说我们只能根据结果大致对分类有一个了解。聚类分析前所有个体或样本所属的类别是未知的,类别个数一般也是未知的,分析的依据就是原始数据,没有任何事先的有关类别的信息可参考。所以:严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它统计方法。

  二、基本概念:
常见的是对个体分类,也有对变量进行分类的,但比较少。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样本或变量,常用的是样本)之间的联系的紧密程度。常用的指标为“距离”和“相似系数”,假定研究对象均用所谓的“点”来表示。
    在聚类分析中,一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一类,将“距离”较大的点或“相似系数”较小的点归为不同的类。(一般的相似系数就是相关系数了)需要一组表示个体性质或特征的变量,称之为聚类变量。根据个体或样本之间联系的紧密程度进行分类。一般来说分类变量的组合都是由研究者规定的。计算聚类——距离指标D(distance)的方法非常多:按照数据的不同性质,可选用不同的距离指标。欧氏距离(Euclidean distance)、欧氏距离的平方(Squared Euclidean distance)、曼哈顿距离(Block)、切比雪夫距离(Chebychev distance)、卡方距离(Chi-aquare measure) 等;相似性也有不少,主要是皮尔逊相关系数了
 三、聚类方法:
聚类分析主要是层次聚类(hierarchical clustering)和非层次聚类法(例:快速聚类法(K-means))两种;此外,近年来发展出了一系列智能聚类方法(例:两阶段聚类(Two-Step))也是一个新的类别。

  
K-means cluster 又叫快速聚类法,可用于大量数据进行聚类分析的情形。与层次聚类法相比,快速聚类法的计算量非常小,不占用太多的内存空间,计算速度快,对于多变量、大样本数据而言是非常好的选择。并且,在分析时可以人为指定初始中心位置,还可以借鉴以往的分析结果,并引入到本次分析中,十分中用。但该方法需要用户事先知道要将样品分为多少类,且只能对案例进行聚类,不适用于变量聚类。且要求数据为连续变量多元正态、方差齐。
原理:确定聚类类别数量——确定原始中心——逐一计算个案例到各个类别中心点的距离,并按照距离最近原则归类——计算新的中心点——重新计算各案例距离新的类别中心点的距离——重新归类。
Hierarchical cluster 层次聚类,分为合并法和分解法两大类,其原理相同。该方法对变量的要求没有快速聚类法那么严苛,分类变量或连续型变量皆可。但速度可能较慢。
原理:按照定义距离计算各数据点间距离——距离最近的两个单位并为一类,形成n-1个类别——计算新产生的类别和其他各类别间的距离,形成新距离阵——重复上一步,知道所有数据合并成为一个类别为止。
TwoSteps支持数值型和分类型数据,用于解决海量数据、复杂类别结构时的聚类分析。游戏数据一般来说都很大,TwoStep在这方面来说还是很具有优势的,数据迭代过程中的内存消耗和聚类数目确定,TwoStep表现的都很好,两步聚类避免了距离矩阵过大,导致算法执行效率下降,而这也是优势所在。

聚类分析主要应用在市场细分等领域,我们也经常采用聚类分析技术来实现对抽样框的分层,主要是采用两阶段聚类或快速聚类,一般要先进行因子分析,聚类分析,类的识别,聚成几类,类的稳定性测试,选择目标类,定位,描述细分市场,市场营销组合
四、聚类分析特点和局限性
特点
简单、直观。
聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的根据实际情况进行判断和选择;
不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;
聚类分析的结果完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。
异常值和特殊的变量对聚类有较大影响

局限性:
期望能很清楚的找到大致相等的类或细分市场是不现实的;
样本聚类,变量之间的关系需要研究者决定;
不会自动给出一个最佳聚类结果;

统计211网现推出微信公众号平台,每日更新,由一批专业统计领域的专业人士撰稿,每位专家根据自己擅长的领域为各位统计爱好者提供原创或经典的科研统计相关信息。内容包含统计理论解析、应用案例解读、典型错误辨析等,也涉及统计方法在软件中的应用,例如 SPSS、R、SAS、STATA、Amos等统计软件,全方位多视角的介绍统计相关知识,力求为广大读者提供帮助。
公众号名称:统计211网
公众号ID: tj211_com

二维码.png (15.1 KB, 下载次数: 0)
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


免责声明|关于我们|小黑屋|联系我们|赞助我们|统计211 ( 闽ICP备09019626号  

GMT+8, 2025-4-1 00:14 , Processed in 0.077414 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表