《SAS软件与统计应用教程 第8章聚类分析与判别分析.ppt》由会员分享,可在线阅读,更多相关《SAS软件与统计应用教程 第8章聚类分析与判别分析.ppt(110页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第八章 聚类分析与判别分析n8.1 聚类分析聚类分析n8.2 判别分析判别分析STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n8.1 8.1 聚类分析聚类分析n8.1.1 聚类分析的一般概念聚类分析的一般概念n8.1.2 系统聚类法的基本思想和步骤系统聚类法的基本思想和步骤n8.1.3 用用CLUSTER过程和过程和TREE过程进行系统过程进行系统聚类聚类n8.1.4 用用VARCLUS过程进行变量聚类过程进行变量聚类STATSTATSTATSTATSASSAS软件与统计应用教程软
2、件与统计应用教程8.1.1 聚类分析的一般概念聚类分析的一般概念 设设有有n个个样样品品(多多元元观观测测值值),每每个个样样品品测测得得m项项指指标标(变变量量),得得到到观观测测数数据据xij(i=1,n;j=1,m),如如表表所示。所示。X1X2XmX(1)x11x12x1mX(2)x21x22x2mX(n)xn1xn2xnmSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表表8-1中中数数据据又又称称为为观观测测数数据据阵阵或或简简称称为为数数据据阵阵,其其数数学表示为:学表示为:其其中中列列向向量量Xj=(x1j,x2j,xnj),表表示示第第j项项指
3、指标标(j=1,2,m),行行向向量量X(i)=(xi1,xi2,xin)表表示示第第i个样品。个样品。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.两种两种聚类分析聚类分析 根据分类对象的不同,根据分类对象的不同,聚类分析聚类分析分为两种:分为两种:(1)样样品品聚聚类类:样样品品聚聚类类是是对对样样品品(观观测测)进进行行的的分分类类处处理理,又又称称为为Q型型分分类类,相相当当于于对对观观测测数数据据阵阵按按行行分分类。类。(2)变变量量聚聚类类:变变量量聚聚类类是是对对变变量量(指指标标)进进行行的的分分类类处处理理,又又称称为为R型型分分类类
4、,相相当当于于对对观观测测数数据据阵阵按按列列分分类。类。两种聚类在形式上是对称的,处理方法也是相似的。两种聚类在形式上是对称的,处理方法也是相似的。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.聚类分析聚类分析的方法的方法 聚类方法大致可归纳如下:聚类方法大致可归纳如下:(1)系统聚类法(谱系聚类)系统聚类法(谱系聚类)先先将将l个个元元素素(样样品品或或变变量量)看看成成l类类,然然后后将将性性质质最最接接近近(或或相相似似程程度度最最大大)的的2类类合合并并为为一一个个新新类类,得得到到l 1类类,再再从从中中找找出出最最接接近近的的2类类加加以
5、以合合并并变变成成了了l 2类,如此下去,最后所有的元素全聚在一类之中。类,如此下去,最后所有的元素全聚在一类之中。(2)分解法(最优分割法)分解法(最优分割法)其其程程序序与与系系统统聚聚类类相相反反。首首先先所所有有的的元元素素均均在在一一类类,然然后后按按照照某某种种最最优优准准则则将将它它分分成成2类类、3类类,如如此此下下去去,一直分裂到所需的一直分裂到所需的k类为止。类为止。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(3)动态聚类法(逐步聚类法)动态聚类法(逐步聚类法)开开始始将将l个个元元素素粗粗糙糙地地分分成成若若干干类类,然然后后用用某某
6、种种最最优优准准则进行调整,一次又一次地调整,直至不能调整为止。则进行调整,一次又一次地调整,直至不能调整为止。(4)有序样品的聚类有序样品的聚类 n个个样样品品按按某某种种因因素素(时时间间或或年年龄龄或或地地层层深深度度等等)排排成次序,要求必须是次序相邻的样品才能聚在一类。成次序,要求必须是次序相邻的样品才能聚在一类。其他还有:有重叠聚类、模糊聚类、图论聚类等方法。其他还有:有重叠聚类、模糊聚类、图论聚类等方法。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.聚类统计量聚类统计量 聚聚类类分分析析实实质质上上是是寻寻找找一一种种能能客客观观反反映映
7、元元素素之之间间亲亲疏疏关关系系的的统统计计量量,然然后后根根据据这这种种统统计计量量把把元元素素分分成成若若干干类类。常常用用的的聚聚类类统统计计量量有有距距离离系系数数和和相相似似系系数数两两类类。距距离离系系数数一一般般用用于于对对样样品品分分类类,而而相相似似系系数数一一般般用用于于对对变变量量聚聚类类。距距离离的的定定义义很很多多,如如马马氏氏距距离离、明明考考斯斯基基距距离离、兰兰氏距离、切比雪夫距离以及常见的欧氏距离:氏距离、切比雪夫距离以及常见的欧氏距离:等。相似系数有相关系数、夹角余弦、列联系数等。等。相似系数有相关系数、夹角余弦、列联系数等。STATSTATSTATSTAT
8、SASSAS软件与统计应用教程软件与统计应用教程 当当然然,采采用用不不同同的的分分类类方方法法会会得得到到不不同同的的分分类类结结果果,有有时时即即使使是是同同一一种种聚聚类类方方法法,因因距距离离的的定定义义方方法法不不同同也也会会得得到到不不同同的的分分类类结结果果。对对任任何何观观测测数数据据都都没没有有唯唯一一“正正确确的的”分分类类方方法法。实实际际应应用用中中,常常采采用用不不同同的的分分类类方方法法对对数数据据进进行行分分类类,可可以以提提出出多多种种分分类类意意见见,由由实实际际工工作者决定所需要的分类数和分类情况。作者决定所需要的分类数和分类情况。STATSTATSTATS
9、TATSASSAS软件与统计应用教程软件与统计应用教程8.1.2 系统系统聚类聚类法的基本思想和步骤法的基本思想和步骤 下面以样品聚类为例介绍系统下面以样品聚类为例介绍系统聚类聚类法。法。1.1.系统聚类法的基本思想系统聚类法的基本思想 设设有有n个个样样品品,每每个个样样品品测测得得m项项指指标标(见见表表8-1)。系系统统聚聚类类方方法法的的基基本本思思想想是是:首首先先定定义义样样品品间间的的距距离离(或或相相似似系系数数)和和类类与与类类之之间间的的距距离离。一一开开始始将将n个个样样品品各各自自自自成成一一类类,这这时时类类间间的的距距离离与与样样品品间间的的距距离离是是等等价价的的
10、;然然后后将将距距离离最最近近的的两两类类合合并并,并并计计算算新新类类与与其其他他类类的的类类间间距距离离,再再按按最最小小距距离离准准则则并并类类。这这样样每每次次减减少少一一类类,直直到到所所有有的的样样品品都都并并成成一一类类为为止止。这这个个并并类类过过程程可以用谱系聚类图形象地表达出来。可以用谱系聚类图形象地表达出来。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.系统聚类法的基本步骤系统聚类法的基本步骤 (1)数据变换数据变换 为为了了便便于于比比较较或或消消除除量量纲纲的的影影响响,在在作作聚聚类类之之前前常常常常首首先先要要对对数数据据
11、进进行行变变换换。变变换换的的方方法法有有中中心心化化变变换换、标标准准化化变变换换、极极差差标标准准化化变变换换、极极差差正正规规化化变变换换、对对数数变变换等。换等。最常用的标准化变换为:最常用的标准化变换为:其中其中 ,j=1,2,m。变变换换后后的的数数据据,每每个个变变量量的的样样本本均均值值为为0,标标准准差差为为1,而且标准化变换后的数据而且标准化变换后的数据 与变量的量纲无关。与变量的量纲无关。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)计算计算n个样品两两间的距离个样品两两间的距离 选选择择度度量量样样品品间间距距离离的的定定义义,计
12、计算算n个个样样品品两两两两间间的的距离,得样品间的距离矩阵距离,得样品间的距离矩阵D(0)。(3)聚类过程聚类过程 首首先先n个个样样品品各各自自构构成成一一类类,类类的的个个数数k=n:Gi=X(i)(i=1,n),此此时时类类间间的的距距离离就就是是样样品品间间的的距离(即距离(即D(1)=D(0))。)。令令j=2,n,执行如下并类过程:,执行如下并类过程:1)合合并并类类间间距距离离最最小小的的两两类类为为一一新新类类(类类间间距距离离参参见见下下文文“系系统统聚聚类类分分析析的的方方法法”)。此此时时类类的的总总个个数数k减减少少1类,即类,即k=n j+1;STATSTATSTA
13、TSTATSASSAS软件与统计应用教程软件与统计应用教程 2)计算新类与其他类的距离,得新的距离矩阵计算新类与其他类的距离,得新的距离矩阵D(j))。)。若若合合并并后后类类的的总总个个数数k仍仍大大于于1,重重复复1)和和2)步步,直直到到类的总个数为类的总个数为1时止。时止。(4)画谱系聚类图画谱系聚类图 谱谱系系图图能能明明确确清清晰晰地地描描述述各各个个样样本本点点在在不不同同层层次次上上聚聚合分类的情况。合分类的情况。(5)决定分类的个数及各类的成员决定分类的个数及各类的成员STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.系统系统聚类分析聚类
14、分析的方法的方法 设设有有原原始始数数据据阵阵,如如表表8-1所所示示。G为为在在某某一一聚聚类类水水平平上上的的类类的的个个数数,Ck是是当当前前(水水平平G)的的第第k类类,nk为为Ck中中的的样品个数,样品个数,DKL为第为第G水平的类水平的类CK和类和类CL之间的距离。之间的距离。根根据据类类间间距距离离计计算算方方法法的的不不同同,有有11种种不不同同的的聚聚类类方方法:法:(1)类平均法类平均法 类类平平均均法法(Average Linkage)用用两两类类样样品品两两两两观观测测间间距距离的平均作为类间距离,即离的平均作为类间距离,即 类平均法是一种应用较广泛,聚类效果较好的方法
15、。类平均法是一种应用较广泛,聚类效果较好的方法。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)重心法重心法 重重心心法法(Centroid Method)用用两两个个类类重重心心(均均值值)之之间间的(平方)欧氏距离定义类间距离,即的(平方)欧氏距离定义类间距离,即(3)最长距离法最长距离法 最最长长距距离离法法(Complete Method)用用两两类类观观测测间间最最远远一一对观测的距离定义类间距离,即对观测的距离定义类间距离,即(4)最短距离法最短距离法 最最短短距距离离法法(Single Linkage)用用两两类类观观测测间间最最近近一一对对
16、观测的距离定义类间距离,即观测的距离定义类间距离,即STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(5)Ward最小方差法(离差平方和法)最小方差法(离差平方和法)Ward最最小小方方差差法法(Wards Mininum-Variance Method)也称也称Ward离差平方和法。类间距离定义为离差平方和法。类间距离定义为 Ward方方法法并并类类时时总总是是使使得得并并类类导导致致的的类类内内离离差差平平方方和增量最小。和增量最小。其其它它的的聚聚类类方方法法还还有有最最大大似似然然法法(EML)法法、可可变变类类平平均均法法(Flexible-Beta
17、Method)、McQuitty相相似似分分析析法法(McQuittys Similarity Analysis)、中中间间距距离离法法(Median Method)、两两 阶阶 段段 密密 度度 估估 计计 法法(Two Stage Density Linkage)等。等。类平均法和类平均法和Ward最小方差法使用最广泛。最小方差法使用最广泛。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.4.系统聚类类数的确定系统聚类类数的确定(1)由适当的阀值确定由适当的阀值确定 选选定定某某种种聚聚类类方方法法,按按系系统统聚聚类类的的方方法法并并类类后后,得得到到
18、一一张张谱谱系系聚聚类类图图,聚聚类类图图(又又称称谱谱系系图图)只只反反映映样样品品间间(或或变变量量间间)的的亲亲疏疏关关系系,它它本本身身并并没没有有给给出出分分类类,需需要要给给定定一一个个临临界界相相似似尺尺度度,用用以以分分割割谱谱系系图图而而得得到到样样品品(或或变变量量)的的分分类类,如如给给定定临临界界值值(阀阀值值)为为d,那那么么,当当样样品品间间或或已已并并类类间间距距离离小小于于d时时,认认为为这这些些样样品品和和类类的关系密切,应该归属一类。的关系密切,应该归属一类。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)根据统计量确定
19、分类个数根据统计量确定分类个数 在在SAS的的CLUSTER过过程程中中,提提供供一一些些统统计计量量可可以以近近似似检检验验类类个个数数如如何何选选择择更更合合适适,用用统统计计量量决决定定类类数数的的方方法来自统计的方差分析思想,下面作一些介绍。法来自统计的方差分析思想,下面作一些介绍。1)R2统计量统计量其其中中PG为为分分类类数数为为G个个类类时时的的总总类类内内离离差差平平方方和和,T为为所所有有样样品品或或变变量量的的总总离离差差平平方方和和。R2越越大大,说说明明分分为为G个个类类时时每每个个类类内内的的离离差差平平方方和和都都比比较较小小,也也就就是是分分为为G个个类类是是合合
20、适适的的。但但是是,显显然然分分类类越越多多,每每个个类类越越小小,R2越越大大,所所以以我我们们只只能能取取G使使得得R2足足够够大大,但但G本本身身比比较较小,而且小,而且R2不再大幅度增加。不再大幅度增加。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 2)半偏半偏R2统计量统计量 在在把把类类CK和和类类CL合合并并为为下下一一水水平平的的类类CM时时,定定义义半半偏相关偏相关其其中中BKL=WM (WK+WL)为为合合并并类类引引起起的的类类内内离离差差平平方方和和的的增增量量,Wt为为类类Ct的的类类内内离离差差平平方方和和。半半偏偏R2用用于于评
21、评价价一一次次合合并并的的效效果果,其其值值是是上上一一步步R2与与该该步步R2的的差差值值。其值越大,说明上一次合并的效果越好。其值越大,说明上一次合并的效果越好。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 3)伪伪F统计量统计量 伪伪伪伪F统统计计量量评评价价分分为为G个个类类的的效效果果。伪伪F统统计计量量越越大大,表表示示分分为为G个个类类越越合合理理。通通常常取取伪伪F统统计计量量较较大大而而类类数数较较小的聚类水平。小的聚类水平。4)伪伪t2统计量统计量 伪伪用用此此统统计计量量评评价价合合并并类类CK和和类类CL的的效效果果,该该值值大大说说
22、明明合合并并的的两两个个类类CK和和CL是是很很分分开开的的,不不应应合合并并这这两两个个类类,而而应该取合并前的水平。应该取合并前的水平。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程8.1.3 用用CLUSTER过过程程和和TREE过过程程进进行行系系统统聚类聚类1.CLUSTER1.CLUSTER过程过程 系统聚类系统聚类CLUSTER过程的一般格式为:过程的一般格式为:PROC CLUSTER;VAR;COPY;ID;RUN;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程其中:其中:1)PROC CLUSTER语语句句
23、为为调调用用CLUSTERS过过程程的的开开始,其常用选项及功能见表始,其常用选项及功能见表8-2。2)VAR语语句句指指定定用用来来聚聚类类的的数数值值型型变变量量。如如果果缺缺省省,则使用没有列在其他语句中的所有数值型变量。则使用没有列在其他语句中的所有数值型变量。3)COPY语语句句把把指指定定的的变变量量复复制制到到OUTTREE=的的数数据集中,以备后用。据集中,以备后用。4)ID语语句句中中指指定定的的变变量量用用于于区区分分聚聚类类过过程程中中的的输输出出及及OUTTREE数据集中的观测。数据集中的观测。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用
24、教程2.TREE2.TREE过程过程 TREE过过程程可可以以把把CLUSTER过过程程产产生生的的OUTTREE=数数据据集集作作为为输输入入,画画出出聚聚类类谱谱系系图图,并并按按照照用用户户指指定定的的聚类水平聚类水平(类数类数)产生分类结果数据集。一般格式如下:产生分类结果数据集。一般格式如下:PROC TREE;COPY;ID ;RUN;其中:1)PROC TREE语语句句为为调调用用TREE过过程程的的开开始始,其其常常用选项及功能见表用选项及功能见表8-3。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表8-3 PROC TREE语句的常用选项
25、2)COPY语语句句把把输输入入数数据据集集中中的的变变量量复复制制到到输输出出数数据据集。集。3)ID语语句句用用于于指指定定在在输输出出树树状状图图中中的的识识别别对对象象,ID变变量量可可以以是是字字符符或或数数值值变变量量。如如果果省省略略,TREE过过程程将将使使用变量用变量_NAME_。选项名称功能说明DATA=数据集指定从CLUSTER过程生成的OUTTREE数据集作为输入。OUT=数据集指定包含最后分类结果(每一个观测属于哪一类,用一个CLUSTER变量区分)的输出数据集。NCLUSTERS指定最后把样本观测分为多少个类。HORIZONTAL横向画聚类谱系图。STATSTATS
26、TATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.应用实例应用实例【例例8-1】表表8-4是是全全国国沿沿海海10省省市市农农民民2004年年支支出出情情况况的汇总资料,表中涉及生活消费支出情况的八个指标。的汇总资料,表中涉及生活消费支出情况的八个指标。假定上述数据已经存放在数据集假定上述数据已经存放在数据集Mylib.nm10。地区食品衣着居住家庭设备及服务医疗保健交通和通讯文教、娱乐及服务其他商品及服务天津1017.72181.21508.06108.51177.10230.41376.8742.23河北780.09127.06340.8880.42115.97176.
27、60182.5631.33辽宁962.00154.97290.0872.58145.19186.77217.9543.42上海2191.15279.731446.15344.41424.55720.37805.55116.94江苏1317.88163.53467.62141.43163.16293.07373.3972.47浙江1838.57258.58798.88242.09326.12496.86597.96100.05福建1408.54159.60430.14154.43136.40306.06313.09107.32山东1000.13139.18365.97110.12155.8522
28、1.93298.2397.85广东1581.68116.83494.89131.17153.17350.27314.3498.44广西1047.5864.42311.4864.8783.64140.13178.8337.65STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程试利用汇总资料对试利用汇总资料对10个地区进行分类个地区进行分类(1)使用使用CLUSTER过程过程 为为了了进进行行系系统统聚聚类类并并产产生生帮帮助助确确定定类类数数的的统统计计量量,使使用如下代码:用如下代码:proc cluster data=mylib.nm10 standard me
29、thod=ward outtree=otree pseudo;copy group;run;结结果果中中首首先先给给出出数数据据相相关关系系数数矩矩阵阵特特征征值值方方面面的信息。的信息。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 结结果果的的最最后后部部分分为为聚聚类类分分析析的的完完整整过过程程(Cluster History),如图所示,内容按列划分从左到右依次为:,如图所示,内容按列划分从左到右依次为:“NCL”为类别数量,表示新类别形成后类别的总数;为类别数量,表示新类别形成后类别的总数;“-Clusters Joined-”为为合合并并的的类类
30、别别,指指明明这这一一步步合合并并了了哪哪两两个个类类,有有两两列列。其其中中OBxxx表表示示某某一一个个原原始始样样品,而品,而CLxxx表示在某一个聚类水平上产生的类。表示在某一个聚类水平上产生的类。“FREQ”表示这次合并得到的类有多少个样品。表示这次合并得到的类有多少个样品。“SPRSQ”是是半半偏偏R2,“RSQ”是是R2,“PSF”为为伪伪F统统计计量量,“PST2”为为伪伪t2统统计计量量,“Tie”指指示示距距离离最最小小的的候选类对是否有多对,本例全无。候选类对是否有多对,本例全无。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)确定分
31、类个数确定分类个数 1)R2统统计计量量(列列标标题题为为RSQ)用用于于评评价价每每次次合合并并成成NCL个个类类时时的的聚聚类类效效果果。R2越越大大说说明明NCL个个类类越越分分开开,故故聚聚类类的的效效果果好好。R2的的值值总总是是在在0和和1之之间间,而而且且R2的的值值总总是是随随着着分分类类个个数数NCL的的减减少少而而变变小小。通通过过查查看看R2值值的的变变化化,可可以以确确定定n个个样样品品分分为为几几类类最最为为合合适适。本本例例中中,分分为为3个个类类之之前前(NCL3)的的并并类类过过程程中中R2的的减减少少是是逐逐渐渐的的,改改变变不不大大;当当分分为为3类类时时的
32、的R2=0.838,而而下下一一次次合合并并后后分分为为2类类时时R2下下降降较较多多(R2=0.721)。这这时时通通过过分分析析R2统统计量可得出分为计量可得出分为3个类是较合适的。个类是较合适的。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 查查看看R2变变化化的的大大小小也也可可以以由由合合并并类类时时的的半半偏偏R2(列列标标题题为为SPRSQ)得得到到。半半偏偏R2的的值值是是上上一一步步R2与与该该步步R2的的差差值值,故故某某步步的的半半偏偏R2值值越越大大,说说明明上上一一步步合合并并的的效效果果好好。本本例例中中半半偏偏R2最最大大和和次
33、次大大分分别别为为NCL=1和和2,说说明明根据半偏根据半偏R2准则分为两个类或三个类是较合适的。准则分为两个类或三个类是较合适的。2)伪伪F统统计计量量(列列标标题题为为PSF)用用于于评评价价分分为为NCL个个类类的的聚聚类类效效果果。伪伪F值值越越大大表表示示这这些些观观测测样样品品可可显显著著地地分分为为NCL个个类类。本本例例中中伪伪F最最大大和和次次大大依依次次为为NCL=2和和5(局局部部),说说明明根根据据伪伪F准准则则分分为为两两个个类类、五五个个类类是是较较合适的。合适的。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4)伪伪t2统统计计
34、量量用用以以评评价价此此步步合合并并类类的的效效果果。由由该该统统计计量量的的定定义义知知伪伪t2值值大大表表明明上上一一次次合合并并的的两两个个类类是是很很分分开开的的,也也就就是是上上一一次次聚聚类类的的效效果果是是好好的的。本本例例中中伪伪t2最最大大和和次次大大分分别别为为NCL=1和和2,说说明明根根据据伪伪t2准准则则分分为为两两个个类或三个类是较合适的。类或三个类是较合适的。由由此此看看出出:R2准准则则支支持持分分为为两两类类和和三三类类;伪伪F统统计计量量支支持持分分为为两两类类和和五五类类;伪伪t2统统计计量量支支持持分分为为两两类类和和三三类类。综综合合分分析析认认为为,
35、用用Ward法法10个个地地区区分分为为两两类类或或三三类类较较合适。合适。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 使用如下代码画出谱系图(如图所示):使用如下代码画出谱系图(如图所示):proc tree data=otree horizontal;ID Group;run;从从图图中中可可见见,分分为为两两类类的的结结果果为为:G1=上上海海,浙浙江江,G2=天津天津,江苏江苏,福建福建,广东广东,山东山东,河北河北,辽宁辽宁,广西广西。分分为为三三类类的的结结果果为为:G1=上上海海,浙浙江江,G2=天天津津,江苏江苏,福建福建,广东广东,山东山
36、东,G3=河北河北,辽宁辽宁,广西广西。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 相相仿仿地地,可可以以使使用用类类平平均均法法、中中间间距距离离法法、可可变变类类平平均均法法等等方方法法。不不同同的的聚聚类类方方法法得得到到的的聚聚类类结结果果或或多多或或少少会会有有些些差差别别,在在实实际际应应用用中中,应应综综合合各各种种计计算算结结果果,提提出合适的分类个数。出合适的分类个数。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程8.1.4 用用VARCLUS过程进行变量聚类过程进行变量聚类1.VARCLUS1.VARC
37、LUS过程过程 常用的常用的VARCLUS语句格式为:语句格式为:PROC VARCLUS;VAR ;RUN;其中:其中:1)PROC VARCLUS语语句句为为调调用用VARCLUS过过程程的的开开始,其常用选项及功能见表始,其常用选项及功能见表8-5。2)VAR语语句句指指定定要要分分类类的的变变量量,如如省省略略VAR语语句句,则则使用没有在其他语句中列出的所有数值型变量。使用没有在其他语句中列出的所有数值型变量。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.VARCLUS2.VARCLUS过程变量聚类的步骤过程变量聚类的步骤 如如果果没没有有为为V
38、ARCLUS过过程程提提供供初初始始分分类类的的情情况况,VARCLUS过过程程开开始始把把所所有有变变量量看看成成一一个个类类,然然后后它它重重复以下步骤:复以下步骤:1)首首先先挑挑选选一一个个将将被被分分裂裂的的类类。通通常常这这个个被被选选中中的的类类的的 类类 分分 量量 所所 解解 释释 的的 方方 差差 百百 分分 比比 最最 小小(选选 项项PRECENT=)或或者者同同第第二二主主成成分分有有关关的的特特征征值值为为最最大大(选项(选项MAXETGH=)。)。2)把把选选中中的的类类分分裂裂成成两两个个类类。首首先先计计算算前前两两个个主主成成分分,再再进进行行斜斜交交旋旋转
39、转,并并把把每每个个变变量量分分配配到到旋旋转转分分量量对对应应的的类类里里,分分配配的的原原则则是是使使变变量量与与这这个个主主成成分分的的相相关关系系数数为为最大。最大。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 3)变变量量重重新新归归类类。通通过过多多次次反反复复循循环环,变变量量被被重重新新分分配到这些类里,使得由这些类分量所解释的方差为最大。配到这些类里,使得由这些类分量所解释的方差为最大。当当每每一一类类满满足足用用户户规规定定的的准准则则时时,VARCLUS过过程程停停止止。所所谓谓准准则则,或或是是每每个个类类分分量量所所解解释释的的方方
40、差差的的百百分分比比,或或是是每每一一类类的的第第二二个个特特征征值值达达到到预预设设定定的的标标准准为为止止。如如果果没没有有规规定定准准则则,则则当当每每个个类类只只有有一一个个特特征征值值大大于于1时时,VARCLUS过程停止。过程停止。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.应用实例应用实例【例例8-2】为为研研究究人人脑脑老老化化的的严严重重程程度度,有有人人测测定定了了不不同同年年龄龄的的60名名正正常常男男性性10项项有有关关指指标标的的数数据据,见见表表8-6。各各变变量量的的含含义义如如下下:AGE为为年年龄龄、TJ为为图图片片
41、记记忆忆、SG为为数数字字广广度度记记忆忆、TS为为图图形形顺顺序序记记忆忆、XX为为心心算算位位数数、XS为为心心算算时时间间、CK为为规规定定时时间间内内穿穿孔孔数数、BJ为为步步距距、JJ为步行时双下肢夹角、为步行时双下肢夹角、BS步速。步速。假假定定上上述述数数据据已已经经保保存存在在逻逻辑辑库库Mylib.rnlh中中,试试对对这些指标作变量这些指标作变量聚类分析聚类分析。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(1)SAS程序程序 输入如下程序:输入如下程序:OPTIONS PS=500;/*要求输出的结果中每页包括500行内容,可避免不必要
42、的SAS标题反复出现。*/PROC VARCLUS data=Mylib.rnlh;VAR age tj sg xx xs ts ck bj jj bs;RUN;说说明明:过过程程语语句句中中没没有有任任何何选选择择项项,默默认认的的聚聚类类方方法法为为主主成成分分聚聚类类法法。过过程程步步最最终终会会聚聚成成多多少少类类,将将由由默默认认的的临临界界值值来来决决定定,即即当当每每个个类类只只有有一一个个特特征征根根大大于于1时时,VARCLUS过程停止。过程停止。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2)结果分析结果分析 1)第第1步步:如如图图8
43、-4所所示示。这这是是用用分分解解法法思思想想进进行行斜斜交交主主成成分分聚聚类类的的第第1步步,把把全全部部10个个变变量量聚聚成成一一类类,能能解解释释的的方方差差为为4.146566,占占总总方方差差10的的41.47,第第2特特征征值为值为1.4695,并预告这一类将被分裂。,并预告这一类将被分裂。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 2)第第2步步将将1类类分分裂裂成成2类类,分分别别含含3个个和和7个个变变量量,图图8-5给出聚类概要。给出聚类概要。图图中中表表明明各各类类中中的的Variation Explained(解解释释方方差差,
44、即即第第一一特特征征值值)、Proportion Explained(解解释释方方差差占占本本类类总总方方差差的的百百分分比比)、Second Eigenvalue(类类中中的的第第2特特征征值值)等等。此此时时能能解解释释的的方方差差为为5.403654,占占总总方方差差10的的54.04。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 图图8-6给出相关系数的平方。给出相关系数的平方。其其中中第第3列列R-Squared With Own Cluster是是指指每每个个变变量量与与所所属属类类分分量量之之间间相相关关系系数数的的平平方方R2,如如:变变量量
45、BJ在在第第1类类中中,它它与与第第1类类分分量量(相相当当于于主主成成分分分分析析中中的的第第1主主成成分分)之之间间的的R2是是0.8166,同同理理可可理理解解该该列列中中的的其其他他相相关系数的含义;关系数的含义;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 第第4列列R-squared with Next Closest是是指指每每个个变变量量与与相相邻邻类类的的类类分分量量之之间间的的相相关关系系数数的的平平方方R2,如如:BJ与与第第2类类分分量量之之间间的的相相关关系系数数平平方方R2为为0.2121,该该值值越越小小,说说明分类越合理。明分
46、类越合理。第第5列列R-squared with 1-R*2 Ratio是是由由同同一一横横行行的的数数据求得:据求得:如如:(1 0.8166)/(1 0.2121)=0.2327,此此值值越越小小,表表明明分分类类越越合合理理。从从此此列列可可看看出出,很很多多比比值值较较大大,说说明明这这10个变量分成个变量分成2类是不太合适的。类是不太合适的。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 图图8-7给出从标准化变量预测类分量的标准回归系数。给出从标准化变量预测类分量的标准回归系数。若设若设C1、C2分别为第分别为第1和第和第2类分量,则有:类分量,则
47、有:C1=0.356608 BJ+0.377719 JJ 0.353237 BSC2=0.281106 AGE+0.278996 TJ+0.239620 SG 0.120883 XX+0.1567777XS+165498TS+0.260054BSSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图图8-8给出类结构。给出类结构。类类结结构构相相当当于于因因子子分分析析中中的的因因子子模模型型,即即每每个个标标准准化化变变量量可可以以表表示示成成全全部部类类分分量量的的线线性性组组合合。如如:AGE=0.574313C1 0.806650C2。类内相关(图类内相关(
48、图8-9)就是类分量之间的相关系数阵。)就是类分量之间的相关系数阵。这里预告第这里预告第2类将被分裂。类将被分裂。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 3)第第3步。步。首首先先给给出出将将2类类分分裂裂成成3类类时时的的聚聚类类概概要要。3个个类类分分别别含含3个个、4个个和和3个个变变量量,此此时时能能解解释释的的方方差差为为6.392112,占总方差占总方差10的的63.92,如图,如图8-10所示。所示。接着给出各变量与类间的相关系数平方(图接着给出各变量与类间的相关系数平方(图8-11)STATSTATSTATSTATSASSAS软件与统计
49、应用教程软件与统计应用教程标标准准回回归归系系数数(上上图图)以以及及类类分分量量之之间间的的相相关系数阵(下图)。关系数阵(下图)。此此时时已已达达到到默默认认的的停停止止分分裂裂的的临临界界值值(即即每每个个类类中中只只有有一一个个特特征征值值大大于于1),停停止止分裂。分裂。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 最后,给出整个聚类过程的汇总信息(图最后,给出整个聚类过程的汇总信息(图8-14)。)。第第列列表表示示分分成成1类类、2类类或或3类类时时分分别别能能解解释释的的总总方方差量;差量;第第列列表表示示分分成成1类类、2类类或或3类类时时
50、分分别别能能解解释释的的方方差差占全部占全部10个变量的总方差的百分比;个变量的总方差的百分比;第第列列表表示示分分成成1类类、2类类或或3类类时时由由1个个类类成成分分能能解解释释的方差占全部的方差占全部10个变量的总方差的最小百分比个变量的总方差的最小百分比 第第列为各类中最大的第列为各类中最大的第2特征值;特征值;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 第第列列为为各各类类中中1个个变变量量与与其其所所在在类类的的类类分分量量的的最最小小相关系数的平方相关系数的平方R2;第第列列为为各各类类中中(1-R2)own/(1-R2)next的的最最大大