《聚类分析实验1529.pdf》由会员分享,可在线阅读,更多相关《聚类分析实验1529.pdf(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、聚类分析 用数据文件 World95.sav做实例分析。例 1:系统聚类法 为了研究亚洲国家或地区的经济发展和文化教育水平,以便对亚洲国家和地区进行分类研究,进行聚类分析。第一步:首先要选出亚洲国家或地区,使用数据选择个案 选择如果条件满足输入 region=3,之后确定就可以了,这样我们将亚洲国家或区域选择了出来。接下类就正式进行聚类分析。第二步:选择在菜单选项中选择分析分类选择系统聚类分析 第三步:在系统聚类法中,我们看到在分群下有两个选项,个案(样品聚类或 Q型分类)和变量(变量聚类或 R 型聚类)这里选择样品聚类(个案)。在输出下有统计量与图,这里都进行选择。第四步:在数据文件中,选择
2、的变量有Urban,Lifeexpf,Lifeexpm,Literacy,Gdp-cap;在标注个案中选择 Country来标识本例中的 17 个亚洲国家或地区,并以其他 5 个变量进行 Q 型聚类分析,即对国家或地区进行聚类。第五步:在系统聚类中有四个按钮。首先在方法中的聚类方法中选择组内联结法,在度量标准中选择平方欧氏距离,在转换值的标准化中选择 Z 得分。点击继续。接下来选择统计量,选择合并进程表与相似性矩阵,继续。之后在绘制中选择树状图,继续即可。最后点击确定。第六步:输出分析 表1 表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。本例中由于计算使用的是平方欧氏距离,所以样品间距
3、越大,样品越相异,从矩阵中可以看出,孟加拉国(Bangladesh)与柬埔寨(Cambodia)的距离最小,那么他俩先聚为一类。表1 表2 反映每一阶段聚类的结果,比如第一阶段时第二个样品(孟加拉国)与第三个样品(柬埔寨)聚为一类,注意这时有16类,因此某阶段的分类数等于总的样品数减去这个阶段的序号。接下来的分析可根据表4 自行思考。表2 表3 是聚合系数随分类数变化的曲线,由图可以看出,当分类数为3 或4 时,曲线变得比较平缓,这个分类也符合我们的目的。表3 表4 是树状聚类图,从图中可以有分类个数得到分类情况,如果我们选择分类数为3,就从距离为10的地方往下切,得到分类如下:1 类2,3,
4、1,6,11,2 类5,14,8,3 类16,17,4,7,9,12,13,15,10我们可以从经济发展水平和文化教育水平来理解所做的分类,第2 类所代表的国家应该是亚洲经济发达程度最高的国家或地区,第1 类的经济水平和文化水平都比较低,第三类国家或地区的经济水平和文化水平居中。表4 表5也是反映样品聚类情况的图,如果按照设定的分类,在那类的行上从左到右就可以找到各类所包含的样品。表5 例 2:快速聚类 还是用 World95.sav的数据,从中筛选出亚洲国家或地区试图将亚洲国家或地区按经济和文化水平分为三类,使用快速聚类法。第一步:与例 1 相同。第二部:选择在菜单选项中选择分析分类选择 K
5、-均值聚类分析。第三步:在数据文件中,选择的变量有Urban,Lifeexpf,Lifeexpm,Literacy,Gdp-cap;在标注个案中选择 Country来标识本例中的 17 个亚洲国家或地区,并以其他 5 个变量进行 Q 型聚类分析,即对国家或地区进行聚类。将分类数指定为 3,在选项中选择统计量中的:初始聚类中心,ANOVA表,每个个案的聚类信息。输出分析:表6 表示最初各类的重心,也就是种子点,表6 表7 时样品的分类情况,我们看到快速聚类发将亚洲国家或地区分为三类,1 类1,8,19,24,50,51,66,69,76,80,98,1082类47,57,893类86,96,我们可以对分类结果进行分析,第一类国家或地区经济和文教卫生水平较低,第二类国家或地区时亚洲国家或地区的佼佼者,其经济和文教卫生水平都有很高,第三类国家或地区处于两者之间。我们可以结合表8 来分析,可以看到,第二类的人均GDP比另外两组高。表7 表8 表9 是方差分析表,通过方差分析可看出有4 个变量对分类贡献显着。表9