《SPSS数据的聚类分析.ppt》由会员分享,可在线阅读,更多相关《SPSS数据的聚类分析.ppt(57页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、zf2v例例1 1:谁经常光顾商店,谁买什么东西,买多少?:谁经常光顾商店,谁买什么东西,买多少?按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类物种类、金额等变量分类这样商店可以这样商店可以.识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)时一次性大采购)刻画不同的客户群的特征(如用性别、年龄等变量来刻画)刻画不同的客户群的特征(如用性别、年龄等变量来刻画)聚类分析的应用:无处不在聚类分析的应用:无处不在为什么这样为什么这样分类?分类?
2、有何好处?有何好处?u因为每一个类别里面的人消费方式都不一样,需要针对不同的因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。参与率。u挖掘有价值的客户,并制定相应的促销策略:对经常购买酸奶挖掘有价值的客户,并制定相应的促销策略:对经常购买酸奶的客户;对累计消费达到的客户;对累计消费达到1212个月的老客户。个月的老客户。u针对潜在客户派发广告,比在大街上乱发传单命中率更针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!高,成本更低!zf3v例例2 2:谁是银
3、行信用卡的黄金客户?:谁是银行信用卡的黄金客户?n利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!n这样银行可以n制定更吸引的服务,留住客户!比如:o一定额度和期限的免息透资服务!o百盛的贵宾打折卡!o在他或她生日的时候送上一个小蛋糕!zf4如何实现聚类?如何实现聚类? -聚类分析的基本思想和方法聚类分析的基本思想和方法1 1、什么是聚类分析?、什么是聚类分析?聚类分析:聚类分析: 是根据是根据“物以类聚物以类聚”的道理,对样品或指的道理,对样品或指标进行分类,使得同一类中的对象之间的相似性比与其标进行分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强的一种多
4、元统计分析方法。他类的对象的相似性更强的一种多元统计分析方法。聚类分析的目的:把相似的研究对象归成类;即:使聚类分析的目的:把相似的研究对象归成类;即:使类类内内对象的相似性最大化和对象的相似性最大化和类间类间对象的差异性最大化。对象的差异性最大化。如何刻如何刻画研究对象(样品或画研究对象(样品或指标)间的相似性?指标)间的相似性?有哪些方法可以实现有哪些方法可以实现研究对象的分类呢?研究对象的分类呢? zf5系统聚类(又称为层次聚类Hierarchical cluster):凝聚式系统聚类、分解式系统聚类非系统聚类(又称为非层次聚类non- hierarchical cluster ):如K
5、均值法(快速聚类法) 2 2、聚类分析的方法、聚类分析的方法zf6凝聚式凝聚式分解式分解式以系统聚类法为例以系统聚类法为例zf7二、相似性度量二、相似性度量1 1、相似性的度量指标:、相似性的度量指标:相似系数:相似系数:性质越接近的变量或样品,它们的相似系数性质越接近的变量或样品,它们的相似系数越接近于越接近于1 1或或-1-1,而彼此无关的变量或样品它们的相似系,而彼此无关的变量或样品它们的相似系数则越接近于数则越接近于0 0,相似的为一类,不相似的为不同类;,相似的为一类,不相似的为不同类;距离:距离:变量或样本间的变量或样本间的距离越近,说明其相似性越高,距离越近,说明其相似性越高,应
6、归为一类;距离越远则说明相似性越弱,应归为不同应归为一类;距离越远则说明相似性越弱,应归为不同的类。的类。样本分类(样本分类(Q Q型聚类)常以型聚类)常以距离距离刻画相似性刻画相似性指标分类指标分类( (R R型聚类型聚类) )常以常以相似系数相似系数刻画相似性刻画相似性zf8常用距离常用距离: 1)明考夫斯基距离)明考夫斯基距离(Minkowski distance) 明氏距离有三种特殊形式:明氏距离有三种特殊形式: 1a)绝对距离(绝对距离(Block距离)距离):当当g=1时时 pkjkikijxxd11gpkgjkikijxxd11)|(zf9 1b)欧氏距离欧氏距离(Euclide
7、an distance):当当g=2时时 1c)切比雪夫距离切比雪夫距离:当当 时时 2112)(2pkjkikijxxdjkikpkijxxd1max)(gzf10CDAB10551011x2x2x1x225 10125AB2210 1101CD v例例:横轴 代表重量(单位:kg),纵轴 代表长度(单位:cm)。有四个点A,B,C,D,见图。明氏距离及其特殊形式的缺陷zf1121xmmx若 用作单位, 单位不变,则A坐标为(0,50),C坐标为(0,100)2250 102600AB22100 110001CD zf12以上几种距离主要有以下两个缺点:距离的值受到各指标的量纲的影响距离的值
8、受到各指标的量纲的影响,具有一定的人为性。具有一定的人为性。距离的定义没有考虑各个变量之间的相关性和重要性。距离的定义没有考虑各个变量之间的相关性和重要性。如何克服以上如何克服以上的缺点?的缺点?zf13当各变量的单位不同或测量值范围相差很大时,当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理:然后用标准化后的数据计算距离。常用的标准化处理: 其中:其中: 为第为第j j个变量的样本均值;个变量的样本均值; 为第为第j j个变量的样本方差。个变
9、量的样本方差。*1,2,1,2,ijjijjjxxxinjps11njijixxn211()1njjijjisxxnzf142 2)马氏距离)马氏距离克服量纲的影响克服量纲的影响 克服指标间克服指标间相关性的影响相关性的影响)()(2ji1jixxxxijd1/2()()ijd1ijijxxxx缺点:缺点:协方差协方差矩阵难以确定矩阵难以确定zf151、最短距离(、最短距离(Nearest Neighbor)x21x12x22x1113d类类Gp与类与类Gq之间的距离之间的距离Dpq :min(,)pqijDd x x其中,其中,d(xi,xj)表示点表示点xi Gp和和xj Gq之间的距离之
10、间的距离以当前某个样本与以当前某个样本与已经形成的小类中已经形成的小类中的各样本距离中的的各样本距离中的最小值作为当前样最小值作为当前样本与该小类之间的本与该小类之间的距离。距离。三、类和类之间的距离度量zf16 例例1 1:为了研究辽宁省为了研究辽宁省5 5省区某年城镇居民生活消费的省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分分布规律,根据调查资料做类型划分省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海7.90 7.68 9.42 9.16 10.0639.7750.3727.9327.9828.648.49 11.358.209.0110.5212.9413.308
11、.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.10 8.392.042.751.551.821.9613.2914.879.7611.3510.81zf17G1=辽宁辽宁,G2=浙江浙江,G3=河南河南,G4=甘肃甘肃,G5=青海青海采用欧氏距离得到的距离矩阵:采用欧氏距离得到的距离矩阵: 1 2 3 4 5 1 0 2 11.67 0D1= 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0河南与甘肃的距离最近,先将二者河南与甘肃的距离最近,先将二者(3和和4
12、)合为一类)合为一类G6=G3,G4zf18d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3= 7 0 1 12.80 0 2 23.54 11.67 0河南、甘肃与青海并为一新类河南、甘肃与青海并为一新
13、类G7=G6,G5=G3,G4,G6G8=G1,G2zf19d78=mind71,d72=12.80 7 8D4= 7 0 8 12.8 0河南河南3 3甘肃甘肃4 4青海青海5 5辽宁辽宁1 1浙江浙江2 2zf202 2、最长距离(、最长距离(Furthest NeighborFurthest Neighbor )x11x2112dmax ( ,)pqijDd x x以当前某个样本与以当前某个样本与已经形成的小类中已经形成的小类中的各样本距离中的的各样本距离中的最大值作为当前样最大值作为当前样本与该小类之间的本与该小类之间的距离。距离。zf21(3)组间平均连接()组间平均连接(Betwe
14、en-group Linkage)991dd u为所有样本对间的平均距离。为所有样本对间的平均距离。u利用了所有样本对距离的信息利用了所有样本对距离的信息zf22(4)组内平均连接()组内平均连接( Within-group Linkage)1234566dddddd 对所有样对所有样本对的距本对的距离求平均离求平均值,包括值,包括小类之间小类之间的样本对、的样本对、小类内的小类内的样本对样本对.zf23(5)重心法重心法 (Centroid method):11,x y22,xy类均值点的类均值点的距离距离zf24(6 6)离差平方和法离差平方和法 ( (Wards methodWards
15、method ) )2,41,56,522(23)(43)222(65.5)(55.5)0.522(1 3)(53)8zf25红绿(2,4,6,5)8.75 离差平方和增加8.752.56.25黄绿(6,5,1,5)14.75 离差平方和增加14.758.56.25黄红(2,4,1,5)10100故按该方法的连接,黄红首先连接。先将先将n个样本各成一类,然后每次缩小一类,每缩小一类离差个样本各成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和平方和就要增大,选择使离差平方和S增加最小的两类合并,增加最小的两类合并,直至所有样本归为一类为止。直至所有样本归为一类为止。zf2
16、6四、系统聚类法v系统聚类法是一种其聚类过程可以用所谓的谱系结构或树形结构来描绘的方法。事先不用确定分多少类事先不用确定分多少类vSPSS系统聚类法:凝聚式系统聚类法系统聚类法:凝聚式系统聚类法 1、所有的研究对象各自算作一类,将最所有的研究对象各自算作一类,将最“靠近靠近” 的首先聚的首先聚类类 2、再将这个类和其它类中最再将这个类和其它类中最“靠近靠近”的结合,直至所有的的结合,直至所有的对象都合并为一类为止对象都合并为一类为止 vSPSS处理:处理: 分析(分析(Analyze) 分类分类(Classify) 系统聚类系统聚类(Hierarchical Cluster) zf27案例分析
17、 某年度某年度 31个省市自治区小康指数的聚类分析个省市自治区小康指数的聚类分析 (见数据:聚类分析(小康指数)(见数据:聚类分析(小康指数).SAV)zf28SPSS操作:操作:1、AnalyzeClassifyHierarchical Cluster2、把聚类的依据变量、把聚类的依据变量X1(综合指数)、综合指数)、 X2 (社会结构)、社会结构)、 X3 (经济经济与技术发展)、与技术发展)、 X4 (人口素质)、人口素质)、 X5 (生活质量)、生活质量)、 X5 (法制法制与治安)等选入与治安)等选入Variables对话框对话框3、把、把dq(省市)变量选入(省市)变量选入Labe
18、l case by样本标注对话框样本标注对话框4、在、在Cluster选选Cases,表示是对,表示是对31个省市自治区(样本)进行聚类个省市自治区(样本)进行聚类zf29点击统计量(Statistics)按钮出现对话框:选入聚类的依据变量选入聚类的依据变量X1X1(综合指数)、综合指数)、 X2 X2 (社会社会结构)、结构)、 X3 X3 (经济与技经济与技术发展)、术发展)、 X4 X4 (人口素人口素质)、质)、 X5 X5 (生活质量)生活质量)、 X5 X5 (法制与治安)等法制与治安)等对样本进对样本进行标注行标注对样本进对样本进行聚类行聚类zf30StatisticsStati
19、stics对话框:对话框:分类信息表(分类信息表(Cluster membershipCluster membership):):无(无(NoneNone)表示不列示分类信息表;)表示不列示分类信息表;单一方案(单一方案(Single solutionSingle solution)指定分为某一类的分类信息表;)指定分为某一类的分类信息表;方案范围(方案范围(Range of solutionRange of solution)指定分为某一类的分类信息表。)指定分为某一类的分类信息表。也称凝聚状态表也称凝聚状态表相似性矩阵表相似性矩阵表分类信息表分类信息表若要显示分为若要显示分为3 3类的类的
20、情况,则在此填入情况,则在此填入3 3若要显示分为若要显示分为3 3、4 4、5 5类的情况,则在类的情况,则在From From 后填后填3 3在在throughthrough后填后填5 5zf31点击绘制(点击绘制(PlotsPlots)按钮出现以下对话框:)按钮出现以下对话框:树形结构图树形结构图冰柱图冰柱图列示所有分类列示所有分类的冰柱图的冰柱图列示指定某几类分列示指定某几类分类结果的冰柱图类结果的冰柱图不列示冰柱图不列示冰柱图冰柱图列示方向冰柱图列示方向zf32点击方法(点击方法(Method)按钮出现以下对话框:)按钮出现以下对话框:选择类与类之间距离选择类与类之间距离的度量方式;
21、系统默的度量方式;系统默认为认为组间平均法组间平均法选择相似性的度量选择相似性的度量指标,系统默认为指标,系统默认为平方欧氏距离平方欧氏距离数据标准化处理方式数据标准化处理方式选择;系统默认为不选择;系统默认为不进行标准化处理进行标准化处理zf33点击保存(点击保存(SaveSave)按钮出现以下对话框:)按钮出现以下对话框:该对话框选择是否将某分类信息以新变量的形式保存对数据文件中系统默认状态:不保存保存指定分为某一类的分类结果;若要保存分为3类的情况,则在此填入3。系统将产生一个新变量,将所有样本分到3类中某一类的结果列示到数据文件。保存指定分为某几类的分类结果;若要保存分为35类的情况,
22、则在From处填3,在through处填5;系统将产生3个新变量,将所有样本分3、4、5类结果列示到数据文件。zf34输出结果及分析Case Processing SummaryCase Processing Summarya a31100.00.031100.0NPercentNPercentNPercentValidMissingTotalCasesAverage Linkage (Between Groups)a. 样本描述:样本描述:有效样本(有效样本(Valid)、)、缺失样本(缺失样本(Missing)、总样本(总样本(Total)相似性矩阵表:相似性矩阵表:即即31个省份之间个省
23、份之间的距离矩阵表的距离矩阵表zf35A A g g g g l l o o mm e e r ra a t ti io o n n S S c c h h e e d d u u l l e e262839.4700071249.7800018121372.980006242773.190009192185.2900016121887.21030122630153.58510151517156.13000122429158.71540131011167.790001445167.86000231215181.29868162425207.78790191023269.735100242026
24、273.29307191219274.0991252069295.240002213306.43020292024378.8261513211214404.797160242022464.5521902567469.4901702748481.670110271012610.9211420262031785.312210261020934.56724252846986.26423222910161077.38026030142245.4401827301104506.69829280Stage123456789101112131415161718192021222324252627282930
25、Cluster 1Cluster 2Cluster CombinedCoefficientsCluster 1Cluster 2Stage Cluster FirstAppearsNext Stage凝聚状态表凝聚状态表聚类进行到聚类进行到第几步第几步这两列表示的是哪个这两列表示的是哪个样本(或类)与哪个样本(或类)与哪个样本(或类)样本(或类)聚类系数,即该聚类系数,即该步中实现聚类的步中实现聚类的两样本(或类)两样本(或类)之间的距离之间的距离最后这列显示的最后这列显示的是:该步聚类结是:该步聚类结果会在后面第几果会在后面第几步用到步用到这两列显示的是:该步这两列显示的是:该步聚类是样本的
26、聚类还是聚类是样本的聚类还是样本与类的聚类或者是样本与类的聚类或者是类与类的聚类;若为类与类的聚类;若为0 0表示的是样本,若为非表示的是样本,若为非0 0则表示的是类,即第则表示的是类,即第几步聚成的类几步聚成的类zf36Cluster MembershipCluster Membership1112222223333333333333333333333Case1:北京2:上海3:天津4:浙江5:广东6:江苏7:辽宁8:福建9:山东10:黑龙江11:吉林12:湖北13:陕西14:河北15:山西16:海南17:重庆18:内蒙古19:湖南20:青海21:四川22:宁夏23:新疆24:安徽25:云
27、南26:甘肃27:广西28:江西29:河南30:贵州31:西藏3 Clusters分类信息表分类信息表该表是在Statistics对话框选择Single solution指定分类为3出现的分为3类的分类信息表该表可看出:北京、上海、天津为一类;浙江、广东、江苏等为一类;黑龙江、吉林、湖北等为一类。zf37V V e er rt ti ic ca al l I Ic ci ic cl le eX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
28、 X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X
29、X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X
30、 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
31、 X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
32、X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
33、 XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X
34、 X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X
35、 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X
36、 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XX X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X XNumber of clusters1234567891011121314151617
37、18192021222324252627282930Case纵向冰柱图纵向冰柱图该列表示该列表示分类个数分类个数这些列表示的是样本;即这些列表示的是样本;即3131个省份。在省份与省个省份。在省份与省份之间若有份之间若有连接,则两省份同属一类,否连接,则两省份同属一类,否则,两省份划到不同的类中去了。则,两省份划到不同的类中去了。zf38o在在SPSS对话框中选择:对话框中选择: AnalyzeReports Case summaries每一类各自的情况如何?哪些属于小康水平高的地区?每一类各自的情况如何?哪些属于小康水平高的地区?哪些属于小康水平低或中等的地区呢?哪些属于小康水平低或中等的地
38、区呢?省市(省市(dq)综合指数综合指数( X1 )社会结构社会结构( X2 )经济与技术发展经济与技术发展 ( X3 )人口素质人口素质 ( X4 )生活质量生活质量( X5 )法制与治安法制与治安( X6 )Average Linkage(clu3-1)综合指数综合指数( X1 )社会结构社会结构( X2 )经济与技术发展经济与技术发展 ( X3 )人口素质人口素质 ( X4 )生活质量生活质量( X5 )法制与治安法制与治安( X6 )Average Linkage(clu3-1)zf39点击点击Statistics按钮出现对话框:按钮出现对话框:选择均值选择均值(Mean)、中位、中位
39、数数(Median)、最小值、最小值(Minimum)、最大值、最大值(Maximum)等统计量等统计量点击点击Continue按钮,再点击上页对话框中的按钮,再点击上页对话框中的OK;即出现以下结果:即出现以下结果:zf40C Ca as se e S Su u mmmma ar ri ie e s sa a93.20100.0094.70108.4097.4055.5092.3095.1092.70112.0095.4057.5087.9093.4088.7098.0090.0062.7033333391.133396.166792.0333106.133394.266758.566792
40、.300095.100092.7000108.400095.400057.500087.9093.4088.7098.0090.0055.5093.20100.0094.70112.0097.4062.7080.9089.4085.1078.5086.6058.0079.2090.4086.9065.9086.5059.4077.8082.1074.8081.2075.9074.6076.3085.8065.7093.1068.1069.6072.4083.4071.7067.7076.0060.4071.7070.8067.0075.7070.2077.2066666676.383383.6
41、50075.200077.016777.216766.533377.050084.600073.250077.100075.950065.000071.7070.8065.7065.9068.1058.0080.9090.4086.9093.1086.6077.2070.1078.1055.7082.1067.6071.0067.9081.1051.8085.8056.8068.1065.9073.5048.7079.9056.0079.0065.9071.5048.2081.9051.7085.8065.0060.1052.4075.6066.4076.6064.1073.2041.0073
42、.0057.3087.8064.1071.6046.2061.8054.50100.0064.0069.7041.9076.2063.2077.9063.2073.5042.2078.2050.2081.4060.9060.5040.3073.9056.4084.4059.9073.8043.7063.9047.0080.1059.3060.7043.5071.9050.6078.5058.2073.5045.9067.1046.7061.6064.7071.2057.2075.1057.3064.6056.7061.3041.2063.5052.5072.6056.7059.4049.805
43、9.8048.1072.3056.6066.0036.6066.2045.8079.4056.1063.8037.1064.4056.1066.6054.7066.4033.3061.6045.6077.5054.5051.6042.1063.3055.0066.9051.1061.9031.5056.0041.0075.6050.9059.7050.1056.7029.9062.4022222222222260.477367.368244.563669.904552.531875.913660.400068.050043.600069.500053.500077.050050.9051.60
44、31.5056.0029.9061.6070.1081.1057.2085.8067.60100.0031313131313166.522673.306555.087174.787161.348472.419464.100071.600048.700073.900056.400072.600050.9051.6031.5056.0029.9055.5093.20100.0094.70112.0097.40100.00123NMeanMedianMinimumMaximumTotal1123456NMeanMedianMinimumMaximumTotal21234567891011121314
45、1516171819202122NMeanMedianMinimumMaximumTotal3NMeanMedianMinimumMaximumTotalAverageLinkage(BetweenGroups)综合指数社会结构经济与技术发展人口素质生活质量法制与治安Limited to first 100 cases.a. 每类总体及样每类总体及样本在综合指数本在综合指数、社会结构等、社会结构等6个小康指数个小康指数上的描述统计上的描述统计从从3类的描述统计类的描述统计可看出:处于第可看出:处于第一类的北京、上一类的北京、上海、天津等属于海、天津等属于小康水平较高的小康水平较高的地区;处于第
46、地区;处于第2类类的的浙江、广东、浙江、广东、江苏等为小康水江苏等为小康水平中等的地区;平中等的地区;处于第处于第3类的黑龙类的黑龙江、吉林、湖北江、吉林、湖北等为小康水平较等为小康水平较低的地区。低的地区。zf41参见数据:聚类分析(商厦评分)参见数据:聚类分析(商厦评分).sav.sav案例分析:商厦评价的聚类分析zf42o(二)聚类个数的确定(二)聚类个数的确定碎石图:碎石图:X X轴表示分类数;轴表示分类数;y y轴表示聚合系数轴表示聚合系数zf43o黛米尔曼(黛米尔曼(Demirmen,1972)Demirmen,1972)提出依据树状结构图分类的准则:提出依据树状结构图分类的准则:
47、zf44o(三)聚类个数及解释(三)聚类个数及解释zf45v(1)事先要确定分多少类;事先要确定分多少类;(2)确定初始类中心(一确定初始类中心(一是用户指定;二是系统指定);是用户指定;二是系统指定);(3)根据每个样本数据根据每个样本数据点到类中心的距离远近对样本进行分类;点到类中心的距离远近对样本进行分类;(4)重新计算重新计算类中心;类中心;(5)判断是否已满足终止聚类分析的条件(若判断是否已满足终止聚类分析的条件(若满足,则结束聚类;否则,回到第(满足,则结束聚类;否则,回到第(3)重新聚类)重新聚类)五、非系统聚类法:五、非系统聚类法: 快速聚类法(快速聚类法( k-means)的
48、的SPSS 处理处理zf46案例分析:商厦评价的聚类分析参见数据:聚类分析(商厦评分)参见数据:聚类分析(商厦评分).sav.savzf47SPSS操作:操作:1、AnalyzeClassifyK-Means Cluster2、把聚类的依据变量、把聚类的依据变量gwhj(购物环境)、购物环境)、 fwzl(服务质量)服务质量)等选入等选入Variables对话框对话框3、把、把bh(商厦编号)变量选入(商厦编号)变量选入Label case by样本标注对话框样本标注对话框4、在、在Number of Clusters确定分类个数;若为确定分类个数;若为3,则输入,则输入3zf48点击迭代(点
49、击迭代(iterate)按钮)按钮zf49一般可不点击迭代一般可不点击迭代iterate按钮,由系统默认即可;按钮,由系统默认即可;用得较多的是保存(用得较多的是保存(Save)按钮和选项(按钮和选项(Option)按钮。按钮。最大迭代次数,一般可由系统默认收敛标准,最终类中心与上一类中心发生何种程度位移,停止迭代zf50点击保存(点击保存(Save)按钮,出现对话框)按钮,出现对话框点击选项(点击选项(Option)按钮,出现对话框)按钮,出现对话框:以新变量形式保存分类信息到SPSS数据文件中以新变量形式保存每个样本到各自所在类的类中心的距离到SPSS数据文件中输出初始类中心表输出方差分析
50、表;反映哪些变量对分类起着显著作用输出每个样本的分类信息缺失样本的处理,可不用选择,由系统默认即可zf51输出结果及分析I In ni it ti ia al l C Cl lu us st te er r C Ce en nt te er rs s94.0066.0084.0090.0064.0082.00购物环境服务质量123ClusterI It te e r ra at ti io on n H Hi is st to or ry ya a1.8034.031.000.000.000.000Iteration12123Change in Cluster CentersConvergen