《聚类分析的案例分析_金融证券-期货.pdf》由会员分享,可在线阅读,更多相关《聚类分析的案例分析_金融证券-期货.pdf(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 .Word 资料 应用多元统计分析 报告 班级:学号:指导教师:.Word 资料 聚类分析的案例分析 摘要 本文主要用SPSS软件对实验数据运用系统聚类法和K均值聚类法进行聚类分析,从而实现聚类分析及其运用。利用聚类分析研究某化工厂周围的几个地区的 气体浓度的情况,从而判断出这几个地区的污染程度。经过聚类分析可以得到,样本 6 这一地区的气体浓度值最高,污染程度是最严重的,样本 3 和样本 4 气体浓度较高,污染程度也比较严重,因此要给予及时的控制和改善。关键词:SPSS 软件 聚类分析 学生成绩 法和均值聚类法进行聚类分析从而实现聚类分析及其运用利用聚类分析研究某化工厂周围的几个地区的气体
2、浓度的情况从而判断出这几个地区的污染程度经过聚类分析可以得到样本这一地区的气体浓度值最高污染程度是最严重的样一数学模型聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的相似性可以根据这些相似性把相似程度较高的归为一类从而对其总体进行分析和总结判断其之间的差距系统聚类法的基本思想是在这几个样本之相似程度的不同大小将样本进行归类将关系较为密切的归为一类关系较为疏远的后归为一类用不同的方法将所有的样本都聚到合适的类中这里我们用的是最近距离法形成一个聚类树形图可据此清楚的看出样本的分类情况均值法是将 .Word 资料 法和均值聚类法进行聚类分析从而实现聚类分析及其运用利用聚类分析研究某
3、化工厂周围的几个地区的气体浓度的情况从而判断出这几个地区的污染程度经过聚类分析可以得到样本这一地区的气体浓度值最高污染程度是最严重的样一数学模型聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的相似性可以根据这些相似性把相似程度较高的归为一类从而对其总体进行分析和总结判断其之间的差距系统聚类法的基本思想是在这几个样本之相似程度的不同大小将样本进行归类将关系较为密切的归为一类关系较为疏远的后归为一类用不同的方法将所有的样本都聚到合适的类中这里我们用的是最近距离法形成一个聚类树形图可据此清楚的看出样本的分类情况均值法是将 .Word 资料 一、数学模型 聚类分析的基本思想是认为各个
4、样本与所选择的指标之间存在着不同程度的相似性。可以根据这些相似性把相似程度较高的归为一类,从而对其总体进行分析和总结,判断其之间的差距。系统聚类法的基本思想是在这几个样本之间定义其之间的距离,在多个变量之间定义其相似系数,距离或者相似系数代表着样本或者变量之间的相似程度。根据相似程度的不同大小,将样本进行归类,将关系较为密切的归为一类,关系较为疏远的后归为一类,用不同的方法将所有的样本都聚到合适的类中,这里我们用的是最近距离法,形成一个聚类树形图,可据此清楚的看出样本的分类情况。K均值法是将每个样品分配给最近中心的类中,只产生指定类数的聚类结果。二、数据来源 应用多元统计分析第一版164 页第
5、 6 题 我国山区有一某大型化工厂,在该厂区的邻近地区中挑选其中最具有代表性的8 个大气取样点,在固定的时间点每日 4 次抽取 6 种大气样本,测定其中包含的8 个取样点中每种气体的平均浓度,数据如下表。试用聚类分析方法对取样点及大气污染气体进行分类。法和均值聚类法进行聚类分析从而实现聚类分析及其运用利用聚类分析研究某化工厂周围的几个地区的气体浓度的情况从而判断出这几个地区的污染程度经过聚类分析可以得到样本这一地区的气体浓度值最高污染程度是最严重的样一数学模型聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的相似性可以根据这些相似性把相似程度较高的归为一类从而对其总体进行分析和
6、总结判断其之间的差距系统聚类法的基本思想是在这几个样本之相似程度的不同大小将样本进行归类将关系较为密切的归为一类关系较为疏远的后归为一类用不同的方法将所有的样本都聚到合适的类中这里我们用的是最近距离法形成一个聚类树形图可据此清楚的看出样本的分类情况均值法是将 .Word 资料 三、建立数学模型 一、运行过程(一)系统聚类分析 在 SPSS 界面对上述数据进行系统聚类分析如图1 和图 2 所示,进行最近距离分类。图 1 法和均值聚类法进行聚类分析从而实现聚类分析及其运用利用聚类分析研究某化工厂周围的几个地区的气体浓度的情况从而判断出这几个地区的污染程度经过聚类分析可以得到样本这一地区的气体浓度值
7、最高污染程度是最严重的样一数学模型聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的相似性可以根据这些相似性把相似程度较高的归为一类从而对其总体进行分析和总结判断其之间的差距系统聚类法的基本思想是在这几个样本之相似程度的不同大小将样本进行归类将关系较为密切的归为一类关系较为疏远的后归为一类用不同的方法将所有的样本都聚到合适的类中这里我们用的是最近距离法形成一个聚类树形图可据此清楚的看出样本的分类情况均值法是将 .Word 资料 图 2 (二)K均值聚类分析 对数据进行 K均值聚类分析,如下图所示:图 3 法和均值聚类法进行聚类分析从而实现聚类分析及其运用利用聚类分析研究某化工厂
8、周围的几个地区的气体浓度的情况从而判断出这几个地区的污染程度经过聚类分析可以得到样本这一地区的气体浓度值最高污染程度是最严重的样一数学模型聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的相似性可以根据这些相似性把相似程度较高的归为一类从而对其总体进行分析和总结判断其之间的差距系统聚类法的基本思想是在这几个样本之相似程度的不同大小将样本进行归类将关系较为密切的归为一类关系较为疏远的后归为一类用不同的方法将所有的样本都聚到合适的类中这里我们用的是最近距离法形成一个聚类树形图可据此清楚的看出样本的分类情况均值法是将 .Word 资料 图 4 图 5 二、运行结果(一)聚类树形图 法
9、和均值聚类法进行聚类分析从而实现聚类分析及其运用利用聚类分析研究某化工厂周围的几个地区的气体浓度的情况从而判断出这几个地区的污染程度经过聚类分析可以得到样本这一地区的气体浓度值最高污染程度是最严重的样一数学模型聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的相似性可以根据这些相似性把相似程度较高的归为一类从而对其总体进行分析和总结判断其之间的差距系统聚类法的基本思想是在这几个样本之相似程度的不同大小将样本进行归类将关系较为密切的归为一类关系较为疏远的后归为一类用不同的方法将所有的样本都聚到合适的类中这里我们用的是最近距离法形成一个聚类树形图可据此清楚的看出样本的分类情况均值法
10、是将 .Word 资料 图 6 由图可以看出,将数据进行聚类分析,根据设定的分为了二类到三类。若分为两类则样本 6 为一类,其他为一类;若分为三类则将样本四分离出来,其他分为一类。(二)新变量 图 7 该图显示将分类结果的新变量,分别为 CLU3_1 和 CLU2_1。可以清楚的看到将数据聚为 2 类和 3 类的分类情况。法和均值聚类法进行聚类分析从而实现聚类分析及其运用利用聚类分析研究某化工厂周围的几个地区的气体浓度的情况从而判断出这几个地区的污染程度经过聚类分析可以得到样本这一地区的气体浓度值最高污染程度是最严重的样一数学模型聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度
11、的相似性可以根据这些相似性把相似程度较高的归为一类从而对其总体进行分析和总结判断其之间的差距系统聚类法的基本思想是在这几个样本之相似程度的不同大小将样本进行归类将关系较为密切的归为一类关系较为疏远的后归为一类用不同的方法将所有的样本都聚到合适的类中这里我们用的是最近距离法形成一个聚类树形图可据此清楚的看出样本的分类情况均值法是将 .Word 资料 (三)新变量迭代过程中类中心的变化量 迭代历史记录a 迭代 聚类中心的更改 1 2 3 4 1.049.042.000.074 2.000.000.000.000 a.由于聚类中心没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为.000。当
12、前迭代为 2。初始中心间的最小距离为.230。图 8 从表中可以看出本次聚类过程共进行了两次迭代。由于我们在 Iterate子对话框中设置最大迭代次数为 10 和收敛判据为 0,所以在第二次迭代后,类中心的变化为 0,从而迭代停止。(四)各观测量所属类成员表 聚类成员 案例号 聚类 距离 1 1.049 法和均值聚类法进行聚类分析从而实现聚类分析及其运用利用聚类分析研究某化工厂周围的几个地区的气体浓度的情况从而判断出这几个地区的污染程度经过聚类分析可以得到样本这一地区的气体浓度值最高污染程度是最严重的样一数学模型聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的相似性可以根据这
13、些相似性把相似程度较高的归为一类从而对其总体进行分析和总结判断其之间的差距系统聚类法的基本思想是在这几个样本之相似程度的不同大小将样本进行归类将关系较为密切的归为一类关系较为疏远的后归为一类用不同的方法将所有的样本都聚到合适的类中这里我们用的是最近距离法形成一个聚类树形图可据此清楚的看出样本的分类情况均值法是将 .Word 资料 2 1.071 3 4.074 4 4.074 5 2.042 6 3.000 7 2.042 8 1.060 图 9(五)最终类中心表 最终聚类中心 聚类 1 2 3 4 X1.0580.0660.0640.0360 X2.0753.0775.0720.1125 X
14、3.0527.0455.1000.0685 X4.0660.2900.2100.1650 X5.0397.0250.0280.1290 X6.0168.0385 1.3800.0360 图 10 根据结果(五)和结果(六)可以看出,将8个样本聚为了4类。第一类包括样本1、样本2和样本8,根据图1中聚类1这一列可以看出,这一类为这四类中气体法和均值聚类法进行聚类分析从而实现聚类分析及其运用利用聚类分析研究某化工厂周围的几个地区的气体浓度的情况从而判断出这几个地区的污染程度经过聚类分析可以得到样本这一地区的气体浓度值最高污染程度是最严重的样一数学模型聚类分析的基本思想是认为各个样本与所选择的指标之
15、间存在着不同程度的相似性可以根据这些相似性把相似程度较高的归为一类从而对其总体进行分析和总结判断其之间的差距系统聚类法的基本思想是在这几个样本之相似程度的不同大小将样本进行归类将关系较为密切的归为一类关系较为疏远的后归为一类用不同的方法将所有的样本都聚到合适的类中这里我们用的是最近距离法形成一个聚类树形图可据此清楚的看出样本的分类情况均值法是将 .Word 资料 浓度值最低的一类,也就是说该类的环境污染不严重,属于优;第二类包括样本5和样本7,该类气体浓度也是比较低的一类,环境污染有些严重,属于良;第三类包括样本6,这一气体浓度最高,环境污染最严重,属于差;第四类包括样本3和样本4,环境污染较
16、严重,属于中。(六)新变量 如图所示,QCL_1 为分类情况,而 QCL_2 为所属类中心距离。四、结论 通过在 SPSS 软件中对聚类分析案例的运用将不同的样本聚为不同的类,并算出其间的距离更加清楚方便的将多项不同的样本进行聚类分析,并对其的总体情况进行估计,最后能够得到各类别的气体浓度总体情况,从而判断出环境污染的严重情况。经过这次实验学到了很多东西,遇到的问题也一一得到解决。法和均值聚类法进行聚类分析从而实现聚类分析及其运用利用聚类分析研究某化工厂周围的几个地区的气体浓度的情况从而判断出这几个地区的污染程度经过聚类分析可以得到样本这一地区的气体浓度值最高污染程度是最严重的样一数学模型聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的相似性可以根据这些相似性把相似程度较高的归为一类从而对其总体进行分析和总结判断其之间的差距系统聚类法的基本思想是在这几个样本之相似程度的不同大小将样本进行归类将关系较为密切的归为一类关系较为疏远的后归为一类用不同的方法将所有的样本都聚到合适的类中这里我们用的是最近距离法形成一个聚类树形图可据此清楚的看出样本的分类情况均值法是将