《SPSS学习课件学习.pptx》由会员分享,可在线阅读,更多相关《SPSS学习课件学习.pptx(128页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2023/3/2011 2、非参相关分析 如果数据不满足正态分布的条件,应使用Spearman 和Kendall相关分析方法1)Spearman相关系数是Pearson相关系数的非参形式,是根据数据的秩而不是根据实际值计算的。它适合有序数据或不满足正态分布假设的等间隔数据。计算时,必须对连续变量值排秩,对离散变量排序。其计算公式为:式中,Ri是第i个x值的秩,Si是第i个y值的秩。、分别是Ri和Si的平均值。第1页/共128页2023/3/20122)Kendalls tau-b也是一种对两个有序变量或两个秩变量间的关系程度的测量,因此也属于一种分参测度。分析时考虑金额结点(秩次相同)的影响。
2、计算公式:其中,If z0If z0If z=0ti(或ui)是x(或y)的第i组结点x(或y)值的数目,n为观测量数。第2页/共128页2023/3/2013相关系数统计意义的检验 相关系数检验的零假设:总体中两个变量间的相关系数为0。SPSS相关分析过程给出了该假设成立的概率。Pearson和Spearman相关系数假设检验t值计算公式:相关系数的取值介于-1和=1之间,2个变量之间的相关系数为-1,则为绝对负相关;2个变量之间的相关系数为1,则为绝对正相关;2个变量之间的相关系数为0,则表示二者没有关联。式中r是相关系数,n为样本观测数量,n2为自由度。第3页/共128页2023/3/2
3、014观测 号12345678910体重(克)83726990909590917570鸡冠重(毫克)564218845610790683148表81 连续变量相关分析实例数据表一、连续变量的相关分析实例 例:十只小鸡的体重与鸡冠的数据如表81所示(数据文件:1小鸡(相关).sav):例题分析例题分析第4页/共128页2023/3/2015图81 双变量相关主对话框1、分析步骤选择选择weight weight 和和coronarycoronary变量进变量进入入 变量框中;在相关系数栏内变量框中;在相关系数栏内选择选择PearsonPearson;在显著性检验栏;在显著性检验栏选择选择“双侧检
4、验双侧检验”;复选;复选“标记标记显著性相关显著性相关”2)输入数据,依次单击分析输入数据,依次单击分析相关相关双变量相关,打开主对话框双变量相关,打开主对话框1)第5页/共128页2023/3/2016CORRELATIONS /VARIABLES=weight coronary /PRINT=TWOTAIL NOSIG /STATISTICS DESCRIPTIVES XPROD /MISSING=PAIRWISE.注:如在这一步单击“粘贴”,打开Syntax对话框,然后,单击Syntax窗口的Run图标即可开始分析。图82双变量相关选项对话框 单击选按钮,选择单击选按钮,选择“均值和标均
5、值和标准差准差”、“差积偏差和的方差差积偏差和的方差”、“成对排除个案成对排除个案”选项选项 单击确定单击确定3)第6页/共128页2023/3/2017表82 描述性统计量表 从表中可看出,变量weight的均值为82.50,标准差为10.014,观测数为10;变量coronaryt的均值为60.00,标准差为27.596,观测数为10;2、结果分析第7页/共128页2023/3/2018 从表中可看出,Pearson相关系数为0.865,即小鸡的体重与鸡冠的相关系数为0.865,这两者之间不相关的双尾检验值为0.001。体重观测值的协方差为100.278,而鸡冠重观测值的协方差为761.5
6、56,体重和鸡冠重的协方差为239.111。从统计结果可得到,小鸡的体重与鸡冠重之间存在正相关关系,当小鸡的体重越大时,则小鸡的鸡冠越重。并且,否定了小鸡的体重与鸡冠重之间不相关的假设。表83 Pearson相关系数距阵第8页/共128页2023/3/2019例:为研究集团迫使个人顺从的效应,一些研究者用F量表和为测量地位欲而设计的一种量表对12名大学生进行调查。欲知道对权威主义的评分之间相关的信息。(数据文件:2权威(Spearman相关).sav)结果列于表84学生ABCDEFGHIJKL权威主义265110983412711地位欲342181110671259表84权威主义和地位欲评秩二
7、)、有序变量的Spearman分析实例第9页/共128页2023/3/201101、分析步骤图83 双变量相关主对话框图84 双变量相关选项对话框 单击选按钮,选择单击选按钮,选择“均值和标准差均值和标准差”、“差积偏差和的方差差积偏差和的方差”、“成对成对排除个案排除个案”选项选项 单击确定单击确定3)选择选择powerpower和和position position 变量进入变量变量进入变量框;在相关系数栏内选择框;在相关系数栏内选择SpearmanSpearman选选项;在显著性检验栏选择项;在显著性检验栏选择“双侧检验双侧检验”;复选;复选“标记显著性相关标记显著性相关”2)输入数据,
8、依次单击分析输入数据,依次单击分析相关相关双双变量,打开双变量相关主对话框变量,打开双变量相关主对话框1)第10页/共128页2023/3/20111 从表中可看出,权威主义和地位欲的相关系数为0.818,这表明权威主义越高的人地位欲也越高。权威主义与地位欲不相关的假设检验值为0.001,否定假设,即权威主义与地位欲是相关的。表85 Spearman秩相关系数2、结果分析第11页/共128页2023/3/20112(三)、有序变量的Kendall分析实例 仍用前例中的数据(数据文件:权威(Spearman相关).sav)。操作过程相同,只是在第2)步在Correlation Coefficie
9、nts栏内选择Kendalls选项。结果如表86表86 Kendalls 秩相关系数 从表中可看出,权威主义和地位欲的相关系数为0.667,这表明权威主义越高的人地位欲也越高。权威主义与地位欲不相关的假设检验值为0.003,否定假设,即权威主义与地位欲是相关的。Kendall相关分析所得到的结果类似于Spearman分析。第12页/共128页2023/3/20113自己动手啊!自己动手啊!实践8-1 下列数据为12位学生的体重与血压,现要了解学生的体重与血压是否相关。编号体重血压1234567891011126848566083566259775875649598879611015513512
10、8113168120115链接链接数据文件见“课堂练习”8章中的“相关1.sav”第13页/共128页2023/3/201148.2 偏相关分析偏相关的概念 简单相关分析计算两个变量间的相关系数,分析两个变量间线性关系的程度。往往因为第三个变量的作用,使相关系数不能真正反映两个变量间的线性程度。例如身高、体重与肺活量之间的关系如果使用Pearson相关分析计算相关系数,可以得出肺活量与身高和体重均存在较强的线性关系。但实际上,如果对体重相同的人,分析身高和肺活量。是否越长的高的人,肺活量越大呢?显然,答案是否定的。正是因为身高与体重有着线性关系,体重与肺活量存在线性关系,因此,得出身高与肺活量
11、之间存在着较强的线性关系的错误结论。第14页/共128页2023/3/20115 偏相关分析的任务是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量。例如,可以控制年龄和工作经验两个变量的影响,估计工资收入与受教育程度之间的相关关系。可在控制销售能力与各种其它经济指标的情况下研究销售量与广告费用的关系等。第15页/共128页2023/3/20116偏相关系数的计算 控制了变量z,变量x、y之间的偏相关和控制了两个变量z1、z2,变量x、y之间的偏相关系数计算公式分别为:rxy,z是控制了z的条件下,x、y之间的偏相关系数。rxy是变量x、y间的简单相关系数或称零阶相关系数。rxz、
12、ryz分别是变量x、z间的和变量y、z间的简单相关系数,依此类推。偏相关系数的检验偏相关系数检验方法同相关系数检验方法。第16页/共128页2023/3/20117 下图为四川绵阳地区3年生中山柏的数据,分析月生长量与月平均气温、月降水量、月平均日照时数、月平均湿度这4个气候因素哪个因素有关。例 (数据文件:3偏相关)图85四川绵阳地区3年生中山柏的数据例题分析例题分析第17页/共128页2023/3/201181、分析步骤PARTIAL CORR /VARIABLES=hgrow hsun BY humi rain temp /SIGNIFICANCE=TWOTAIL /STATISTICS
13、=DESCRIPTIVES CORR /MISSING=LISTWISE.图86 偏相关分析主对话框单击单击“粘贴粘贴”,在,在SyntaxSyntax窗窗口中生成第一次分析的程序:口中生成第一次分析的程序:4)选择双尾检验,显示实际的显著性概率选择双尾检验,显示实际的显著性概率3)确定第一次分析的变量和控制变量:选择确定第一次分析的变量和控制变量:选择生长生长量与月平均日照时数(量与月平均日照时数(hgrow hgrow 和和hsunhsun)进入变进入变量框中;选择量框中;选择月平均湿度月平均湿度(humi)(humi)、降雨量、降雨量(rain)(rain)、月平均气温、月平均气温(te
14、mptemp)作为控制变量)作为控制变量2)输入数据,依次单击分析输入数据,依次单击分析相关相关偏相关,打偏相关,打开偏相关对话框开偏相关对话框1)第18页/共128页2023/3/20119 复制与修改程:在Syntax窗口中选择第一次偏相关分析程序,复制并粘贴4次 在后三段程序中删除了 STATISTICS 子命令,因为只要执行一次该子命令,就给出所有变量的统计量。在Syntax窗口菜单中选择“运行”“全部”,提交运行。CORRELATIONS /VARIABLES=hgrow hsun humi rain temp /PRINT=TWOTAIL NOSIG /STATISTICS=DES
15、CRIPTIVES /MISSING=LISTWISE.PARTIAL CORR /VARIABLES=hgrow hsun BY humi rain temp /SIGNIFICANCE=TWOTAIL /MISSING=LISTWISE.PARTIAL CORR /VARIABLES=hgrow humi BY hsun rain temp /SIGNIFICANCE=TWOTAIL /MISSING=LISTWISE.PARTIAL CORR /VARIABLES=hgrow rain BY hsun humi temp /SIGNIFICANCE=TWOTAIL /MISSING=LI
16、STWISE.PARTIAL CORR /VARIABLES=hgrow temp BY hsun humi rain /SIGNIFICANCE=TWOTAIL /MISSING=LISTWISE.第19页/共128页2023/3/201202、分析结果与解释与结论为基本描述统计量:各因素的均值、标准差合样本数表87 基本描述统计量表第20页/共128页2023/3/20121 为零相关矩阵,可看出生长量与湿度的相关系数最小,显著性检验结果是不相关的概率为23,生长量与月平均湿度无关。与其他几个气候因素均有明显的线性关系。由于各气候因素的相互影响,生长量与各变量间的相关系数并未反映出各变量间
17、的真实情况,因此应看偏相关的结果。表88 相关性表第21页/共128页2023/3/20122表89 偏相关分析结果生长量与月平均日照时数的偏相关生长量与月平均湿度的偏相关第22页/共128页2023/3/20123生长量与月平均气温的偏相关生长量与降雨量的偏相关第23页/共128页2023/3/20124 根据上表可得出:中山柏生长量与气温关系最密切,相关系数0.9774,显著性水平为0.000;其次是湿度,相关系数0.7310,假设成立的概率为2.5;显著性水平为0.000;日照时数,相关系数0.6318,不相关的概率为6.8。与降雨量没有线性关系。由上可看出,偏相关分析结果与简单相关分析
18、结果会有很大区别。TEMPHUMIHSUNRAINHGROW0.97740.73100.6318-O.4906DF7777P0.0000.0250.6800.180表810 偏相关分析汇总结果第24页/共128页2023/3/20125自己动手啊!自己动手啊!实践8-282、保险业为了研究客户性格的效应,用量表对12个客户进行调查。现想了解对权威(Power)欲的评分和对地位欲(Position)的评分之间相关的信息。(次序型变量的Spearman分析)编号Powerposition12345678910111237621110945138124532912117813610链接链接数据文件见
19、“课堂练习”8章中的“相关2.sav”第25页/共128页2023/3/201268.3 8.3 距离分析距离分析距离分析概述 距离分析是对观测量之间或变量之间相似或不相似程度的一种测度。是计算一对变量之间或一对观测量之间的广义距离。距离分析可用于因子分析、聚类分析、或多维定标分析,有助于分析复杂的数据集。例如,可以根据汽车的一些特性,如发动机的大小、每加仑汽油能行驶的距离和马力来测度两种汽车的相似性等。第26页/共128页2023/3/20127有关的统计量 1、不相似性测度 1)对等间隔数据的不相似性(距离)测度可使用的统计量:Euclidean distanace(欧氏距离)、Squar
20、ed Euclidean distanace(欧氏距离平方)、Chebychev(切贝谢夫)、Block(区组)、Minkowski(明可斯基)或Customized(自定义)统计量。2)计数数据,使用卡方或斐方(方)3)对二值数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差、形或兰斯和威廉斯等距离统计量。2、相似性测度 1)等间隔数据使用统计量皮尔逊相关或余弦。2)测度二元数据相似性使用的统计量有20余种。第27页/共128页2023/3/20128 例:下图是市场上销售 汽车的一些基本情况。(数据文件:4car(距离).sav)图87 汽车销售基本情况例题分析例题分析第28页/共
21、128页2023/3/201291、分析步骤图88 距离分析主对话框 将分析数据表中的三个变量:mpg(每加伦汽油能行驶的距离)、engine(发动机)、horse(马力)、weight(重量)、accel(加速时间)、year(发明时间)、origin(来源国家 cylinder(气缸数)等。现要根据每加伦汽油能行驶的距离、重量、加速时间来进行分类,以区别那些汽车比较类似。选择选择weightweight、mpg mpg 和和accelaccel变量进入变量进入变量框中;在计算距离变量框中;在计算距离 栏选择变量栏选择变量间;在度量栏内选择不相似性选项间;在度量栏内选择不相似性选项2)输入数
22、据,依次单击分析输入数据,依次单击分析相关相关距离,打开距离,打开 距离主对话框距离主对话框1)第29页/共128页2023/3/20130图89 距离分析非相似性对话框 单击单击“度量度量”按钮,打开不相似性度量对话框。在框按钮,打开不相似性度量对话框。在框内选择内选择Euclidean Euclidean 距离、重新标度到距离、重新标度到 0 0 1 1全距全距 单击确定单击确定3)第30页/共128页2023/3/201312、分析结果与解释与结论 从表811可看出,有效观测为398个,带缺省值的观测为8个,共406观测。表811 变量的基本信息表第31页/共128页2023/3/201
23、32表812 距离距阵 表812中,汽车重量和加速时间之间的距离为1.000,汽车重量和每加伦汽油能行驶的距离之间的距离为0.998。第32页/共128页2023/3/20133自己动手啊!自己动手啊!实践8-383、不同的赛艇的性能数据如下。根据每加仑汽油能行驶的距离、重量、加速时间来进行分类,以区别那些赛艇补缴类似。(距离分析)链接链接数据文件见“课堂练习”8章中的“相关3.sav”第33页/共128页2023/3/20134第九章第九章 聚类分析与判别分析聚类分析与判别分析回目录回目录第34页/共128页2023/3/201359.1 聚类分析与判别分析概述聚类分析1、样本聚类 又称为Q
24、型聚类。是根据被观测对象的特征,即反映被观测对象的特征的各变量值进行分类。例如,使用k-Mean聚类分析,可根据对电视机外观偏好的特点把电视机外观分为k组,并把该结果用于确定营销市场的分类。聚类分析(Cluster Analysis)是根据事物本身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。第35页/共128页2023/3/201362、变量聚类 又称为R型聚类。进行变量聚类,可找出彼此独立且具有代表性的自变量,而又不丢失大部分信息。例如,制衣业制定衣服型号是根据人体各部分尺寸数据找出最有代表性的指标,如身长、胸围、裤长、腰围等作为衣服的代表
25、性指标。判别分析 判别分析是根据表面事物特点的变量值和它们所属的类,求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。例如,可根据啤酒中含有的酒精成分、钠成分及所含热量数值对啤酒进行分类。判别分析与聚类分析不同点在于,判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类。第36页/共128页2023/3/20137 1、距离:是指两个事物离的多远的测量,通常将每一个样品看成m维(变量个数)空间中的一个点,在m维空间定义点与点之间的距离,距离较近的点归为同一类,较远的则归为不同的类。几个术语 2、相似系数:是是指两个事物离的多近的测量,性质越接近的样品,它们
26、之间的相似系数越接近1(或-1),而彼此无关的样品之间的相似系数越接近0。在进行聚类处理时,将比较相似的样品归为一类,不太相似的归为不同的类。第37页/共128页2023/3/201389.2 二步聚类 二步聚类过程是一个探索性的工具,为揭示自然的分类或分组而设计。是数据集内部的而不是外观上的分类。其特点是:l 分类变量和连续变量均可参与两步聚类分析l 该过程可自动确定分类数l 可高效分析大数据集l 用户可自己制定用于运算的内存容量 二步聚类过程除了使用欧氏距离外,为了处理分类变量和连续变量,还使用似然距离测度,它要求模型中的变量是独立的。分类变量是多项式分布,连续变量是正态分布。二步聚类概述
27、第38页/共128页2023/3/20139 第一步:首先对每个观测量进行考察,确定类中心。根据相同者为同一类的原则,计算距离并把与类中心距离最小的观测量分到相应的各类中。这个过程称作构建一个分类的特征树(CF)。第二步:使用凝聚算法对特征树的叶结点分组,凝聚算法可产生一个结果范围。为确定最好的类数,对每一个聚类结果使用AIC或BIC判据作为聚类判据进行比较,得出最后的聚类结果。二步聚类过程的输出提供聚类得出结果的类数判据(AIC、BIC)、聚类最终结果的类频数等各类变量的描述性统计量,可产生类频数条形图、类频数饼图和变量重要性图。二步聚类过程第39页/共128页2023/3/20140有关术
28、语 1)Cluster Features(CF)Tree,聚类特征树:在聚类的第一步,根据计算的距离确定的类结构。每类一个节点,属于该类的观测量就是该节点的树叶,由于树叶的不断增加构成树枝。2)AIC或BIC:在聚类的第二步凝聚过程中用到的两个判据,是两个算法即Akaik(AIC)判据或贝叶斯判据(BIC)。3)Tuning the Algorithm(协调算法):两步聚类过程可自动进行聚类,也可人为控制聚类过程。在人为控制下,可指定参数,此称为调谐(Tuning)。4)Noise Handing(噪声处理):由于两步聚类要处理大数据集,在构建CF树时,如果指定了类数和算法的参数,在第一步聚类
29、过程中,当观测量多时,CF树可能会满,不在树上的观测量就称为噪声,需调整算法参数,这种处理称为噪声处理。5)Outlier(局外者):根据噪声处理参数聚类结果,被丢掉的观测量称为局外者,单独构成一类,不计在聚类结果的类数中。第40页/共128页2023/3/20141 例(数据文件:1两步聚类.sav)汽车制造商需评价当前汽车市场,以确定他们的汽车在市场上的竞争地位,通常对汽车对探访的数据进行分类达到此目的,可用自动的两步聚类分析来完成。变量名含义变量名含义manufact厂商horsepow马力model型号wheelbas轴距sales销售量width宽度resale4年后销售量lengt
30、h长度type类型Curb-wgt限重price价格Fuel-cap燃料容量Engine-s发动机尺寸mpg燃料功效表91 例题变量说明例题分析例题分析第41页/共128页2023/3/201421、分析过程图91 二步聚类分析主对话框选择选择typetype变量进分类变量框;将变量进分类变量框;将priceprice、Engine-sEngine-s、horsepowhorsepow、wheelbaswheelbas、widthwidth、lengthlength、Curb-wgtCurb-wgt、Fuel-capFuel-cap、mpgmpg变量变量送入连续变量框送入连续变量框2)按分析按
31、分析分类分类两步聚类顺序,两步聚类顺序,打开两步聚类分析主对话框打开两步聚类分析主对话框1)第42页/共128页2023/3/20143图92 二步聚类分析图形对话框单击图表按钮,打开图表对话框。在单击图表按钮,打开图表对话框。在“变量重要性绘制变量重要性绘制”中选择中选择“变量的重要性等级变量的重要性等级”下的下的“根据变量根据变量”选项;复选项;复选选“置信度置信度”。单击。单击“继续继续”3)第43页/共128页2023/3/20144图93 二步聚类分析统计量对话框 单击输出按钮,打开输出对话框。选择单击输出按钮,打开输出对话框。选择“统统计量计量”下的下的“信息准则(信息准则(AIC
32、AIC或或BICBIC)”;“工工作数据作数据”下的下的“创建聚类成员变量创建聚类成员变量”;单击;单击“继继续续”单击确定单击确定4)第44页/共128页2023/3/20145聚类运算的次序号对每个可能类数计算聚类判据。一好的结果应有相当大的BIC值和大的距离测度的比值BIC变化是当前BIC值减去前一个BIC值的差BIC变化的比率是当前BIC值与前一个BIC值的比值距离测度的变化率表93 自动聚类过程 从表中可看出,按BIC最小值取最后的聚类结果,为3类。聚为3类时的BIC变化率和距离变化率都相当大。第45页/共128页2023/3/20146表93 聚类过程结果各类频数 观测量总数为15
33、7个,5个由于在一个或几个变量中有缺失值被剔出。152个被分配到各类中,62个第一类;39个第二类;51个第三类。第46页/共128页2023/3/20147表94 各类的类中心 显示每类中观测量的均值、标准差。表明连续变量很好地将各类分开了。1类中的车辆是便宜、小、燃料功效最高;2类特征是适度的价格、较大汽缸。3类昂贵、大的和适度的燃料效率。第47页/共128页2023/3/20148由于该表太宽,不好看。可将其外形改变:2)在该表的透视表中使用鼠标拖曳左下角和右侧的图案 ,即可旋转该表。1)打开“视图”菜单中的工具栏对话框,点击 图标,打开该表的透视表(图)图94 透视表对话框第48页/共
34、128页2023/3/20149表95 按车辆分类的频数表 第一、三类包括小汽车,第一类中有唯一1款卡车;第二类均为卡车。第49页/共128页2023/3/20150图9-5 连续变量的并列均值图均值95的区间该类这个本来的均值样本中该变量的总均值 为连续变量的并列均值图,每个变量生成1个图,共9个。从价格图中可看出,三类的价格置信区间没有交叉,说明三类的平均价格不同,三类很好的分开了 从发动机尺寸图中可看出,第一类较小,而第二、三类的较大。这两类的发动机尺寸没有很好的分开。a 价格b 发动机尺寸第50页/共128页2023/3/20151图9-6 各连续变量的重要性图b 第二类a 第一类c
35、第三类 变量以其值递减的顺序放在y轴上,横轴是统计量t值。图中竖线为变量重要性的临界值。对每个要考虑其显著性的变量,它的t统计量必须在正或负方向上超过竖线。负t值表明在该类中,该变量的值通常比总均值小;正t值表明该变量值通常比总均值大。图a:各变量重要性测度均超过临界值,可认为所有连续变量对形成第一类均有贡献。燃烧效率比总均值大,其它变量取值比均值小。图b:宽度、尺度、马力和价格对第二类形成不重要图c:前后轴间距离、燃料容量对形成第三类不重要,而燃烧效率刚达到有重要意义的程度。第51页/共128页2023/3/20152图9-7 分类变量在第一类中的重要性图 为分类变量在各类中的重要性图。每类
36、一个图,此列出一个。它表明分类变量type在第一类中的重要性。横轴是卡方值,竖线为变量重要性的临界值。超过竖线表明该分类变量对该类的形成是重要的。因聚类只指定了一个分类变量,因此只有一条。第52页/共128页2023/3/201539.3 9.3 快速样本聚类分析快速样本聚类分析(K KMeans ClusterMeans Cluster)快速样本聚类,也称逐步聚类或动态聚类。其基本思路为:开始按照一定方法选择一批凝聚点(聚心),其后按样品想最近的凝聚点凝聚,形成起始分类,然后按最近距离原则修改不合理的分类,直到合理为止。其与分层聚类法相比,在处理过程中,不需保存距离矩阵,因而计算量小,适合大
37、数据文件的分析。快速样本聚类分析概述第53页/共128页2023/3/20154 1、选择用于聚类分析的变量,必须是数值型变量,且至少1个。为了清楚地表明各观测量最后聚到哪一类,还应指定一个表明观测量特征的变量作为标识的变量,例如编号、姓名之类的变量;2、指定聚类数目,即要将样品分为几类;3、选择k个样品为聚类种子(起始聚心)。K最小值为2,最大值不超过样品个数(小于等于观测数);4、按照起始聚心距离最小原则将各观察量分到各聚心所在的类中去,形成第一次替代的k类;5、计算该类中所有变量的平均值,作为第二次替代的聚心;6、重复1和4步,直到达到指定的替代次数或达到替代终止的条件(收敛因子),聚类
38、程序结束;快速样本聚类分析步骤第54页/共128页2023/3/20155 7、输出聚类结果 8、根据研究对象的背景知识,按某个分类标准或分类原则,得出最终的分类结果。注意:快速聚类使用的是欧氏距离平方,各变量权数相等。如果使用其它统计量进行聚类,必须使用分层聚类方法进行聚类分析。快速聚类变量必须是连续变量。如果测定变量值的单位不同,应该对聚类变量使用描述性统计过程进行标准化后再进行聚类分析,否则,会得出错误结论第55页/共128页2023/3/20156(一)、使用系统默认值实例分析 例 从不同的地区采集七块花岗岩,测其部分化学成分(数据表名:2花岗岩(快速聚类).sav),根据5个变量对花
39、岗岩的产地进行分类。表96 七块花岗岩化学成分数据例题分析例题分析第56页/共128页2023/3/201571、操作步骤图98 快速聚类分析主对话框 将变量将变量5 5个变量作为分个变量作为分析变量选入变量框中。其它析变量选入变量框中。其它为默认为默认 单击单击OKOK2)打开数据文件花岗岩打开数据文件花岗岩(快速快速聚类聚类).sav).sav1)第57页/共128页2023/3/20158表97 初始类中心表98 最终类中心的变量值2、结果分析 为初始凝聚点。由于未指定聚类的初始凝聚点,而是由系统确定。是三次迭代后类凝聚点点变化。由于没有指定迭代次数及收敛判据,系统默认最大迭代次数为10
40、,收敛参数为0。第58页/共128页2023/3/20159表910 聚类总结表99 迭代过程中类中心的变化量 给出了每一类的观测数及缺失值的情况。给出了迭代终止时凝聚点的各变量值。第59页/共128页2023/3/201601、操作步骤(二)、使用选择项的实例分析例子同上,现使用各选项进行分析,可与前分析对比。图99 快速聚类分析主对话框在在“聚类数聚类数”栏中键入栏中键入3 3,即,即预定类数位预定类数位3 3;由系统选择初;由系统选择初始凝聚点,建立包含这三个始凝聚点,建立包含这三个观测的数据文件并存盘;选观测的数据文件并存盘;选择聚类方法,本例选择择聚类方法,本例选择“迭迭代与分类代与
41、分类”项,参数为默认项,参数为默认值值2)打开数据文件花岗岩打开数据文件花岗岩(快速聚快速聚类类).sav).sav1)第60页/共128页2023/3/20161图911 快速聚类分析选项对话框图910 快速聚类分析保存新变量对话框打开选项对话框,选择打开选项对话框,选择统计量栏中所有项。缺统计量栏中所有项。缺失值为默认。失值为默认。单击确定单击确定4)单击存储按钮,选择单击存储按钮,选择“聚类成员聚类成员”和和“与聚类与聚类中心的距离中心的距离”3)第61页/共128页2023/3/20162表911 初始类中心表912 迭代过程中类中心的变化量 表911列出了初始凝聚点的各变量值。上例是
42、系统默认聚类数2,此为指定3,因此与表91区别较大。表912表明该聚类过程一共经过了2次迭代就终止。框中的数字表示每次迭代后新的凝聚点与初始凝聚点间的距离。2、结果分析第62页/共128页2023/3/20163表913 各观测量所属类 表914 最终的类中心 表913为聚类结果列出各观测量所属类,其中的观测用序号No来标识,最后一列数表示观测与凝聚点之间的欧氏距离。表914列出了最终凝聚点的各变量对应值。第63页/共128页2023/3/20164表915 方差分析表 为方差分析表。可看出各变量的类间误差大于类内误差。最后一列的概率值则表明所选择的分析变量能很好地区分类间的差异,因为它接受类
43、间的无差异的概率都很小。由于选择的类使得不同类的观测间的距离达到最大,故这里的F检验只用来做简单检验。此表只用来做简单描述。第64页/共128页2023/3/20165表916 最终的类中心间的距离表917 聚类总结 表916给出了聚类结束时各凝聚点相互之间的距离。表917给出简单聚类结果,从该表可得知各类包含的观测数、有效观测数以及带缺失值的观测数。在数据表中添加两个新变量(见图95):QCL1是类号、QCL2是各观测距离所属类凝聚点的距离。这是在选择Save是系统建立的。第65页/共128页2023/3/20166图912 保存的新变量第66页/共128页2023/3/201679.4 9
44、.4 分层聚类过程分层聚类过程概述 分层聚类分析也称系统聚类法和分解法。其聚类过程为:把参与聚类的每个样品(或变量)各为一类,然后根据两类之间的距离或相似性逐步合并,直到所有的样品(或变量)合并为一个大类为止。可分为:1、分解法:聚类开始时把所有个体(观测量或变量)都视为属于一大类,然后根据距离和相似性逐步分解,直到参与聚类的每个个体自成一类为止。2、凝聚法:聚类开始时把参与聚类的每个个体(观测量或变量)视为一类,然后根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。第67页/共128页2023/3/20168 1)聚类方法:实现分层聚类的方法很多,各种方法的区别在于如何定义和计算两
45、项(两个个体、两类或个体与类)之间的距离或相似性。初学者可以使用系统默认的聚类方法。需要确定的选项:l 聚类法的选择:定义计算两项间距离和相似性的方法。l 测度方法选择:对距离和相似性的测度方法很多,可使用默认选项。2)标准化:如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化,即消除对量纲的影响。用不同的方法进行标准化,会导致不同的聚类结果,因此在选择标准化方法时要注意变量的分布。如果为正态分布可采用Z分数法。如果参与聚类的变量量纲相同,可使用系统默认None”(不作标准化处理)。3)树形图:表明每一步中被合并的类及系数值。4)冰柱图:如果作纵向冰
46、柱图,则参与聚类的个体各占一列,标以个体(观测量或变量)号或个体标签;聚类过程中的每一步占一行,标以步的顺序号。如果作横向冰柱图,则参与聚类的个体各占一行,聚类的每一步占一列。术语第68页/共128页2023/3/20169 Cluster过程实现分层聚类,既可用于样品聚类,也可用于变量聚类 1、选择分析变量 2、数据标准化。目的是消除各变量间由于量不同或数量级单位不同导致距离或相似系数的计算结果有较大的偏差,难以放在一起比较的问题;3、选择距离或相似系数的计算公式,计算所有样品两两间的距离或相似系数,生成距离矩阵或相似矩阵。4、选择聚类方法,将最近的两个样品合并为一类,常用的距雷夫妇又最短距
47、离法、最长距离法、重心法、类平均法、离差平方和法等;5、如果类的个数大于1,则继续3和4。直至所有的样品归为一类为止;计算该类中所有变量的平均值,作为第二次替代的聚心;6、输出聚类的结果和系统聚类图,包括树型图和冰柱图;7、根据研究对象的背景知识,按某个分类标准或分类原则,得出最终的分类结果。分析步骤第69页/共128页2023/3/20170 例 (数据文件:3出生率(分层聚类).sav)1、操作步骤图图9 913 13 分层聚类主对话框分层聚类主对话框例题分析例题分析将出生率和死亡率两个变量选入将出生率和死亡率两个变量选入变量栏内。选国家名作为标识变变量栏内。选国家名作为标识变量选入标注个
48、案栏内;在显示栏量选入标注个案栏内;在显示栏中选定中选定“统计量统计量”和和“图图”选项选项2)打开数据打开数据“出生率出生率(分层聚类分层聚类).sav).sav”;单击分析;单击分析分类分类系统系统聚类聚类,打开系统聚类对话框,打开系统聚类对话框1)第70页/共128页2023/3/20171图图9 914 14 系统聚类方法对话框系统聚类方法对话框图图9 915 15 系统聚类统计量对话框系统聚类统计量对话框单击统计量,选中合并进程表和单击统计量,选中合并进程表和相似性矩阵选项。在聚类成员相似性矩阵选项。在聚类成员 栏栏中选中选”单一解答单一解答“,并输入聚类,并输入聚类数数8 8,返回
49、主对话框,返回主对话框4)单击方法按钮,选取单击方法按钮,选取“最近邻元最近邻元素素”为聚类法,计算准则为为聚类法,计算准则为“Euclidean Euclidean 距离距离,不进行数据标不进行数据标准化,测度转换为默认项。按继准化,测度转换为默认项。按继续返回续返回3)第71页/共128页2023/3/20172图图9 916 16 系统聚类作图对话框系统聚类作图对话框图图9 917 17 系统聚类保存对话框系统聚类保存对话框单击保存新变量按钮,选择单击保存新变量按钮,选择“单一方单一方案案”,聚类数为聚类数为8 8,返回。单击确定,返回。单击确定6)进入作图。作树形图和冰柱图。在冰进入作
50、图。作树形图和冰柱图。在冰柱图下开始聚类框中输入柱图下开始聚类框中输入1 1在停止聚在停止聚类输入类输入8 8,排序标准为,排序标准为1 1,返回,返回5)第72页/共128页2023/3/201732、结果分析及解释表918 数据信息 说明数据文件不存在缺失值,用最小距离法进行聚类分析。案例案例处处理理汇总汇总a案例有效缺失总计N百分比N百分比N百分比15100.00.015100.0a.单个联结第73页/共128页2023/3/20174第74页/共128页2023/3/20175近似矩近似矩阵阵案例 Euclidean 距离 1:afghanistan2:belgium 3:china