《2022年2022年聚类分析上机指导 .pdf》由会员分享,可在线阅读,更多相关《2022年2022年聚类分析上机指导 .pdf(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1 实验六聚类分析动态聚类和变量聚类二、动态聚类法 FASTCLUS过程动态聚类又称为逐步聚类,基本思想是,开始先粗略地分一下类(先选一批凝聚点,让样品向最近的凝聚点聚集,就得到初始分类),然后按照某种最优的原则修改不合理的分类,直到分得比较合理为止。FASTCLUS 过程的一般格式:PROC FASTCLUS MAXCLUSTER=n|RADIUS=t;VAR variables;ID variable;FREQ variable;WEIGHT variable;BY variables;语句说明:PROC FASTCLUS 语句 用来开始 FASTCLUS 过程,必须规定说明项MAXCLU
2、STER=或RADIUS=中的一个。说明项和常用选项:(1)MAXCLUSTER=n|MAXC=n:指定所允许的最大分类数,缺省为 100.(2)RADIUS=t:为选择新的“凝聚点”指定的最小距离名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 15 页 -2 准则。当一个观测点与已有“凝聚点”的最小距离均大于由该选项规定的值t 时,该观测可考虑用来作为新的“凝聚点”。t 的缺省值为 0.(3)DATA=SAS-data-set:给出进行聚类的观测数据集的名字。(4)OUT=SAS-data-set:聚类结果保存都新的数据集中,包含 VAR 中变量,及新变量cluster和dis
3、tance(观测与所属类间的距离)。(5)CLUSTER=name:规定在输出的数据集中用以指示观测属于哪一类的变量名字。缺省为CLUSTER.(6)DRIFT:执行逐个修改法(7)MAXITER=n:指定重新计算类的凝聚点的最大迭代次数。当 n0时,执行按批修改法。缺省为1.(8)DISTANCE:要求输出类均值之间的距离(9)LIST:要求列出所有观测所归入类的类号及观测同最终凝聚点之间的距离。注意事项:应用举例:例2:试用 FASTCLUS 过程对 16个地区农民生活水平的调查数名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 15 页 -3 据(数据集 d641)进行分类。
4、SAS 程序:procfastclusdata=d641 out=out653 maxc=4 list;var x1-x6;id group;run;maxc=4:规定最大分类个数为 4类list:要求列出分类结果。out=out653:指定生成名为 out653 的输出数据集,包含VAR中的变量,新变量 cluster和新变量distance(观测与所属类中心的距离)。主要输出结果:动态聚类的初始凝聚点(数据不标准化)动态聚类的分类结果(数据不标准化)名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 15 页 -4 第一类:北京、浙江第二类:上海第三类:河北、山西、黑龙江、山东、
5、河南第四类:内蒙、辽宁、吉林、江苏、安徽、福建、江西动态聚类产生的各类均值和标准差(数据不标准化)以下 SAS 程序首先调用 STANDARD过程对数据作标准化变化,然后用标准化变换后的数据进行动态聚类分析。名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 15 页 -5 Proc standard data=d641 mean=0 std=1 out=sta653;Var x1-x6;/*将数据集 d641中的变量 x1-x6 标准化,输出到数据集sta653 中*/Proc fastclus data=sta653 out=out654 maxc=4 list;Var x1-x
6、6;id group;Run;主要输出结果:动态聚类的初始凝聚点(数据标准化)动态聚类的分类结果(数据标准化)名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 15 页 -6 第一类:北京第二类:上海第三类:河北、山西、内蒙、山东、河南第四类:天津、辽宁、吉林、黑龙江、江苏、浙江、安徽、福建、江西三、变量聚类VARCLUS 过程VARCLUS过程的一般格式:名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 15 页 -7 PROC VARCLUS语句及选项:数据集选项:(1)DATA=SAS-data-set:指定要分析的数据集,数据 集 可 以 是 通 常 的SAS数
7、 据 集 或 是TYPE=CORR,UCORR(矫 正 过 的 相 关 系 数 矩阵),COV,UCOV 等的数据集。(2)OUTSTAT=SAS-data-ste:生成一个输出数据集,包含均值、标准差、相关系数、类得分系数和类的结构。(3)OUTTREE=SAS-data-set:生成输出数据集,包含有聚类过程的树状结构信息,可用 TREE 过程画树状图。确定分类个数的选项:(1)MAXCLUSTERS=n|MAXC=n:规定所要求的最大分类个数,缺省为变量个数。(2)MINCLUSTERS=n|MINC=n:规定所要求的最小分类名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页,共
8、15 页 -8 个 数,缺 省 从 一 个 类 开 始 试 着 按 照 选 项PROPORTION=或者 MAXEIGEN=进行分裂分类(3)MAXEIGEN=n:规定每一类第二特征值所允许的最大值,缺省,若没有规定选项PROPORTION=或MAXC=,且输入数据集为相关阵时,缺省值为1;若输入数据集为协方差阵时,缺省值为变量方差的均值。该选项不能与CENTROID 同时使用(4)PROPORTION=n|PERCENT=n:规定类分量必须解释的方差比例或百分比。若指定选项CENTROID,缺省为 0.75,否则为0 聚类方式选项:(1)CENTROID:使用重心分量而不是主分量,缺省为主分
9、量法(2)MAXITER=n:规 定 最 大 迭 代 次 数,若 规 定 了CENTROID,缺省为 1,否则,缺省为10 控制输出的选项:(1)CORR|C:只输出相关阵(2)NOPRINT:不要求打印输出(3)SHORT:不打印类结构,得分系数和类间相关阵(4)SIMPLE|S:打印均值和标准差(5)SUMMARY:只打印最后的汇总表(6)TRACE:列出在迭代过程中每个变量所归入的类。名师资料总结-精品资料欢迎下载-名师精心整理-第 8 页,共 15 页 -9 应用举例(课本P260 例 6.7.1)例 3:对 305 名女中学生测量8 项体型指标:X1 为身高,X2 为手臂长,X3 为
10、手肘长,X4 为小腿长,X5 为体重,X6为颈围,X7 为胸宽。表6.12是由 3.5名中学生的观测数据计算得到的相关系数矩阵,试对8 个体型指标分类。SAS 程序:data d672(type=corr);title 在中学生中测量八个体型指标的相关系数;label x1=身高 x2=手臂长 x3=上肢长 x4=下腿长 x5=体重 x6=颈围 x7=胸围 x8=胸宽;input _name_$x1-x8;_type_=corr;名师资料总结-精品资料欢迎下载-名师精心整理-第 9 页,共 15 页 -10 cards;x1 1.000 .846 .805 .859 .473 .398 .30
11、1 .382 x2 .846 1.000 .881 .826 .376 .326 .277 .415 x3 .805 .881 1.000 .801 .380 .319 .237 .345 x4 .859 .826 .801 1.000 .436 .329 .327 .365 x5 .473 .376 .380 .436 1.000 .762 .730 .629 x6 .398 .326 .319 .329 .762 1.000 .583 .577 x7 .301 .277 .237 .327 .730 .583 1.000 .539 x8 .382 .415 .345 .365 .629 .
12、577 .539 1.000;procprint;title;procvarclusdata=d672;run;程序说明:第一个 VARCLUS 过程没有规定聚类的方法,缺省时用主分量聚类分析法;且没有规定选项PROPORTION=或 maxc=,故以 MAXEIGEN=1 确定分类个数。VARCLUS 过程的主要输出结果名师资料总结-精品资料欢迎下载-名师精心整理-第 10 页,共 15 页 -11 上表输出主分量聚类分析的基本信息和分为一类时的汇总 表.包 括 类 的 序 号(cluster)、类 内 成 员 个 数(members)、类内的总方差(cluster variation)、由
13、类分量所解释的方差大小(variation explained)、由类分量解释的方差占类内总方差的比例(proption explained)、类中第二特征值(second eigenvalue).由 于MAXEIGEN=n缺 省,且 没 有 规 定 选 项PROPORTION=或 maxc=,故缺省值为1,由于输出结果中第二特征值为1.77101,所以一类要继续分为两类。也可看 proption explained,缺省值为0.75,此处小于 0.75,故要继续分类。名师资料总结-精品资料欢迎下载-名师精心整理-第 11 页,共 15 页 -12 出分为两类时的汇总表和221RR 和比率。类
14、时第一类和第二类的第二特征值分别为0.2361和0.4764,都小于 1,故分类结束,最终分为两类。下半部分给出有关2R 的信息:Own Cluster为某变量与自己所在类的类分量之间相关系数的平方,值越大,说明该变量越应该被分到该类中;Next Closest表示某变量与最接近类的类分量相关系数的平方,值越小,说明类分得越好;1-2R Ratio等于(1-2R with Own Cluster)除以(1-2R with Next Closest),值越小越好。标准得分系数名师资料总结-精品资料欢迎下载-名师精心整理-第 12 页,共 15 页 -13 标准得分系数表示由变量预测类分量的标准回
15、归系数。分类结构分类结构给出的是每个变量同每个类分量之间的相关系数。结果显示第一类中的变量与第一个类分量的相关系数较大,与第二个类分量的相关系数较小。类分量之间的相关系数阵和分类总结表上 半 部 分 为 类 间 相 关 系 数,两 类 建 相 关 系 数 为名师资料总结-精品资料欢迎下载-名师精心整理-第 13 页,共 15 页 -14 0.44513,相关性较小。procvarclusdata=d672 maxc=8 summaryouttree=o672;run;proctreedata=o672 horizontalgraphics;run;程序解释说明:选项maxc=8 规定最大分类个
16、数为8;VARCLUS 过程使用选项outtree=o772,表示用谱系聚类方法,产生的输出数据集o772 用于画谱系图;选项 summary限制只打印一张最大分类数为8(maxc=8)的汇总表;TREE 过程用于画谱系聚类图。VARCLUS 过程只输出1-8类分类结果的总结表。名师资料总结-精品资料欢迎下载-名师精心整理-第 14 页,共 15 页 -15 8个变量的谱系聚类图从谱系聚类图可以看出,8 个体型指标变量分为两类比较合适。第一类:X1(身高),X2(手臂长),X3(手肘长),X4(小腿长),表示体型的高矮变量类。第二类:X5(体重),X6(颈围),X7(胸围),X8(胸宽),表示体型的胖瘦变量类。名师资料总结-精品资料欢迎下载-名师精心整理-第 15 页,共 15 页 -