《第12章-聚类分析--Stata统计分析与应用课件.ppt》由会员分享,可在线阅读,更多相关《第12章-聚类分析--Stata统计分析与应用课件.ppt(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、STATA 从入门到精通第第12章章 聚类分析聚类分析Page 2STATA从入门到精通从入门到精通 聚类分析聚类分析n1 13.1.1 3.1.1 聚类分析的基本原理聚类分析的基本原理n13.1.2 13.1.2 层次聚类层次聚类n13.1.3 K-13.1.3 K-均值聚类均值聚类n13.1.4 13.1.4 聚类分析的聚类分析的StataStata命令命令Page 3STATA从入门到精通从入门到精通n把把“对象对象”分成不同的类别分成不同的类别l这这些些类类不不是是事事先先给给定定的的,而而是是直直接接根根据据数数据据的的特特征征确定的确定的n把把相相似似的的东东西西放放在在一一起起,
2、从从而而使使得得类类别别内内部部的的“差差异异”尽可能小,而类别之间的尽可能小,而类别之间的“差异差异”尽可能大尽可能大n聚聚类类分分析析就就是是按按照照对对象象之之间间的的“相相似似”程程度度把把对对象象进进行行分类分类什么是聚类分析?什么是聚类分析?(cluster analysis)Page 4STATA从入门到精通从入门到精通n聚聚类类分分析析的的“对对象象”可可以以是是所所观观察察的的多多个个样样本本,也也可可以以是针对每个样本测得的多个变量是针对每个样本测得的多个变量n按照变量对所观察的样本进行分类称为按照变量对所观察的样本进行分类称为Q Q型聚类型聚类l按按照照多多项项经经济济指
3、指标标(变变量量)对对不不同同的的地地区区(样样本本)进进行行分类分类n按照样本对多个变量进行分类,则称为按照样本对多个变量进行分类,则称为R R型聚类型聚类l按照不同地区的样本数据对多个经济变量进行分类按照不同地区的样本数据对多个经济变量进行分类n两两种种聚聚类类没没有有什什么么本本质质区区别别,实实际际中中人人们们更更感感兴兴趣趣的的通通常是根据变量对样本进行分类常是根据变量对样本进行分类(Q(Q型聚类型聚类)什么是聚类分析?什么是聚类分析?(两种分类方式两种分类方式)Page 5STATA从入门到精通从入门到精通Page 6STATA从入门到精通从入门到精通相似性的度量相似性的度量(样本
4、点间距离的计算方法样本点间距离的计算方法)Euclidean距离距离Squared Euclidean距离距离Block距离距离Chebychev距离距离Minkovski距离距离Page 7STATA从入门到精通从入门到精通n在在对对变变量量进进行行分分类类时时,度度量量变变量量之之间间的的相相似似性性常常用用相相似似系数,测度方法有系数,测度方法有相似性的度量相似性的度量(变量相似系数的计算方法变量相似系数的计算方法)夹角余弦夹角余弦 Pearson相关系数相关系数 Page 8STATA从入门到精通从入门到精通n层次聚类又称系统聚类层次聚类又称系统聚类n事事先先不不确确定定要要分分多多少
5、少类类,而而是是先先把把每每一一个个对对象象作作为为一一类类,然后一层一层进行分类然后一层一层进行分类n根根据据运运算算的的方方向向不不同同,层层次次聚聚类类法法又又分分为为合合并并法法和和分分解解法法,两种方法的运算原理一样,只是方向相反,两种方法的运算原理一样,只是方向相反层次聚类层次聚类(hierarchical clusterhierarchical cluster)Page 9STATA从入门到精通从入门到精通Page 10STATA从入门到精通从入门到精通n分解方法原理与合并法相反分解方法原理与合并法相反n先先把把所所有有的的对对象象(样样本本或或变变量量)作作为为一一大大类类,然
6、然后后度度量量对对象象之之间间的的距距离离或或相相似似程程度度,并并将将距距离离或或相相似似程程度度最最远远的的对象分离出去,形成两大类对象分离出去,形成两大类(其中的一类只有一个对象其中的一类只有一个对象)n再再度度量量类类别别中中剩剩余余对对象象之之间间的的距距离离或或相相似似程程度度,并并将将最最远远的的分分离离出出去去,不不断断重重复复这这一一过过程程,直直到到所所有有的的对对象象都都自成一类自成一类为止为止层次聚类层次聚类(分解法分解法)Page 11STATA从入门到精通从入门到精通nNearest Nearest neighborneighbor(最最短短距距离离法法)用用两两个
7、个类类别别中中各各个个数数据据点点之之间间最最短短的的那那个个距距离离来来表表示示两两个个类类别别之之间间的距离的距离nFurthest Furthest neighborneighbor(最最长长距距离离法法)用用两两个个类类别别中中各各个个数数据据点点之之间间最最长长的的那那个个距距离离来来表表示示两两个个类类别别之之间间的距离的距离nCentroid Centroid clusteringclustering(重重心心法法)用用两两个个类类别别的的重重心心之间的距离来表示两个类别之间的距离之间的距离来表示两个类别之间的距离nbetween-groups between-groups li
8、nkagelinkage(组组间间平平均均距距离离法法)SPSS)SPSS的的默默认认方方法法。是是用用两两个个类类别别中中间间各各个个数数据据点点之之间间的的距离的平均来表示两个类别之间的距离距离的平均来表示两个类别之间的距离nWards Wards methodmethod(离离差差平平方方和和法法)使使各各类类别别中中的的离离差平方和较小,而不同类别之间的离差平方和较大差平方和较小,而不同类别之间的离差平方和较大类间距离的计算方法类间距离的计算方法Page 12STATA从入门到精通从入门到精通Page 13STATA从入门到精通从入门到精通n第第1 1步:步:确定要分的类别数目确定要分
9、的类别数目K Kl需要研究者自己确定需要研究者自己确定l在在实实际际应应用用中中,往往往往需需要要研研究究者者根根据据实实际际问问题题反反复复尝尝试试,得得到到不不同同的的分分类类并并进进行行比比较较,得得出出最最后后要要分分的类别数量的类别数量n第第2 2步:步:确定确定K K个类别的初始聚类中心个类别的初始聚类中心l要要求求在在用用于于聚聚类类的的全全部部样样本本中中,选选择择K K个个样样本本作作为为K K个类别的初始聚类中心个类别的初始聚类中心l与与确确定定类类别别数数目目一一样样,原原始始聚聚类类中中心心的的确确定定也也需需要要研究者根据实际问题和经验来综合研究者根据实际问题和经验来
10、综合考虑考虑K-均值聚类均值聚类(步骤步骤)Page 14STATA从入门到精通从入门到精通Page 15STATA从入门到精通从入门到精通n第第5 5步:步:重复第重复第4 4步,直到满足终止聚类条件为止步,直到满足终止聚类条件为止l迭代次数达到研究者事先指定的最大迭代迭代次数达到研究者事先指定的最大迭代次数次数l新新确确定定的的聚聚类类中中心心点点与与上上一一次次迭迭代代形形成成的的中中心心点点的的最大偏移量小于指定的最大偏移量小于指定的量量nK-K-均均值值聚聚类类法法是是根根据据事事先先确确定定的的K K个个类类别别反反复复迭迭代代直直到到把把每每个个样样本本分分到到指指定定的的里里类类别别中中。类类别别数数目目的的确确定定具具有有一一定定的的主主主主观观性性,究究竟竟分分多多少少类类合合适适,需需要要研研究究者者对对研研究究问题的了解程度、相关知识和经验问题的了解程度、相关知识和经验K-均值聚类均值聚类(步骤步骤)Page 16STATA从入门到精通从入门到精通Stata命令命令nmatrix dissimilarityncluster、clustermatncluster kmeans、cluster kmediansncluster dendrogram