概率论与数理统计6.ppt

上传人:qwe****56 文档编号:73169929 上传时间:2023-02-16 格式:PPT 页数:137 大小:1.59MB
返回 下载 相关 举报
概率论与数理统计6.ppt_第1页
第1页 / 共137页
概率论与数理统计6.ppt_第2页
第2页 / 共137页
点击查看更多>>
资源描述

《概率论与数理统计6.ppt》由会员分享,可在线阅读,更多相关《概率论与数理统计6.ppt(137页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、应用多元统计分析应用多元统计分析第五章第五章 聚类分析聚类分析1第五章第五章 聚类分析聚类分析5.1 5.1 聚类分析的方法聚类分析的方法 5.2 5.2 距离与相似系数距离与相似系数 5.3 5.3 系统聚类法系统聚类法 5.4 5.4 系统聚类法的性质及类的确定系统聚类法的性质及类的确定5.5 5.5 动态聚类法动态聚类法 补充补充:CLUSTERCLUSTER过程简介过程简介 2 例例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X2818112126201614

2、2422Y29232223292322232927Z281816222622222424241 什么是聚类分析什么是聚类分析345 我们直观地来看,这个分类是否合理?计算4号和6号得分的离差平方和:(21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和:(28-18)2+(29-23)2+(28-18)2=236 计算1号和3号得分的离差平方和为482,由此可见一般,分类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?6 聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地

3、计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类,把不相似的归为一类。例如对上市公司的经营业绩进行分类;据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。又例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。7 思考:样本点之间按什么刻画相似程度思考:样本点之间按什么刻画相似程度 思考:样本点和小类之间按什么刻画相似程度思考:样本点和小类之间按什么刻画相似程度 思考:小类与小类之间按什么来刻画相似程度思考:小类与小类之间按什么来刻画相似

4、程度8 5.1 聚类分析聚类分析的方法的方法 什么是聚类分析 聚类分析又称群分析聚类分析又称群分析,它是研究对样品或它是研究对样品或指标进行分类的一种多元统计方法指标进行分类的一种多元统计方法.所谓的所谓的“类类”,通俗地说就是相似元素的,通俗地说就是相似元素的集合集合.聚类分析是按照观测样品聚类分析是按照观测样品(或变量或变量)取值取值的相似程度,对观测样品的相似程度,对观测样品(或变量或变量)进行分类,进行分类,使在同一类内的观测样品使在同一类内的观测样品(或变量或变量)是相似的,是相似的,不同类间的观测不同类间的观测(或变量或变量)是不相似的是不相似的.什么是分类什么是分类?它只不过是将

5、一个观测对象它只不过是将一个观测对象指定到某一类指定到某一类(组组).).9 5.1 聚类分析聚类分析的方法的方法 什么是聚类分析什么是聚类分析 分类的问题可以分成两种分类的问题可以分成两种:一种是对当前所研究的问题已知它的类别数目一种是对当前所研究的问题已知它的类别数目,且知且知道各类的特征道各类的特征(如分布规律如分布规律,或知道来自各类的训练样本或知道来自各类的训练样本),),我们的目的是要将另一些未知类别的个体正确归属于我们的目的是要将另一些未知类别的个体正确归属于其中某一类其中某一类,这是第五章判别分析所要解决的问题这是第五章判别分析所要解决的问题.另一种是事先不知道研究的问题应分为

6、几类另一种是事先不知道研究的问题应分为几类,更不知更不知道观测到的个体的具体分类情况道观测到的个体的具体分类情况,我们的目的正是需要通我们的目的正是需要通过对观测数据所进行的分析处理,选定一种度量个体接过对观测数据所进行的分析处理,选定一种度量个体接近程度的量近程度的量,确定分类数目确定分类数目,建立一种分类方法建立一种分类方法,并按亲近并按亲近程度对观测对象给出合理的分类程度对观测对象给出合理的分类.这种问题在实际中大量这种问题在实际中大量存在存在,它正是聚类分析所要解决的问题它正是聚类分析所要解决的问题.10 5.1 聚类分析聚类分析的方法的方法 什么是聚类分析什么是聚类分析 聚类分析是实

7、用多元统计分析的一个聚类分析是实用多元统计分析的一个新的分支新的分支,正处于发展阶段正处于发展阶段,理论上虽不理论上虽不很完善很完善,但由于它能够解决许多实际问题但由于它能够解决许多实际问题,因此这个方法很受人们的重视因此这个方法很受人们的重视,特别是特别是和其他方法联合起来使用往往效果更好和其他方法联合起来使用往往效果更好.例如对一批观测对象先用聚类分析进行例如对一批观测对象先用聚类分析进行分类分类,然后用判别分析的方法建立判别准然后用判别分析的方法建立判别准则则,用以对新的观测对象判别归类用以对新的观测对象判别归类.115.1 聚类分析聚类分析的方法的方法聚类分析的方法可分为以下几种聚类分

8、析的方法可分为以下几种:(1)系统聚类法:系统聚类法:开始每个对象自成一类开始每个对象自成一类,然然后每次将最相似的两类合并后每次将最相似的两类合并,合并后重新计算合并后重新计算新类与其他类的距离或相近性测度新类与其他类的距离或相近性测度.这一过程这一过程一直继续直到所有对象归为一类为止一直继续直到所有对象归为一类为止.并类的并类的过程可用一张谱系聚类图描述过程可用一张谱系聚类图描述.(2)调优法调优法(动态聚类法动态聚类法);(3)最优分割法最优分割法(有序样品聚类法有序样品聚类法);(4)模糊聚类法模糊聚类法;(5)图论聚类法图论聚类法;(6)聚类预报法聚类预报法.12 5.1 聚类分析聚

9、类分析的方法的方法 聚类分析的类型及目的聚类分析的类型及目的 聚类分析根据分类对象的不同分为聚类分析根据分类对象的不同分为R型和型和Q型型两大类两大类,R型是对变量型是对变量(指标指标)进行分类处理进行分类处理,Q型型是对样品进行分类处理是对样品进行分类处理.R型聚类分析的目的有以下方面型聚类分析的目的有以下方面:了解变量间及变量组合间的亲疏关系了解变量间及变量组合间的亲疏关系;对变量进行分类对变量进行分类;根据分类结果及它们之间的关系根据分类结果及它们之间的关系,在每一类在每一类中选择有代表性的变量作为典型变量中选择有代表性的变量作为典型变量,利用少数利用少数几个典型变量进一步作分析计算几个

10、典型变量进一步作分析计算,如进行回归分如进行回归分析或析或Q型聚类分析等型聚类分析等.13 5.1 聚类分析聚类分析的方法的方法 Q型聚类分析的目的型聚类分析的目的 Q型聚类分析的目的主要是对样品进行分类型聚类分析的目的主要是对样品进行分类.分类的结果是直观的分类的结果是直观的,且比传统分类方法更细且比传统分类方法更细致、全面、合理致、全面、合理.当然使用不同的分类方法通当然使用不同的分类方法通常会得到不同的分类结果常会得到不同的分类结果.对任何观测数据都对任何观测数据都没有唯一没有唯一“正确的正确的”的分类方法的分类方法.实际应用中实际应用中,常采用不同的分类方法常采用不同的分类方法,对数对

11、数据进行分析计算据进行分析计算,以便对分类提供意见以便对分类提供意见,并由实并由实际工作者决定所需要的分类数及分类情况际工作者决定所需要的分类数及分类情况.本章重点介绍应用最广泛的系统聚类法;且主要本章重点介绍应用最广泛的系统聚类法;且主要讨论讨论Q型聚类分析问题型聚类分析问题.14 5.2 距离与相似系数距离与相似系数 为了对观测样品为了对观测样品(或变量或变量)进行分类进行分类,就必须研究它们之间的关系就必须研究它们之间的关系.描述样描述样品之间亲疏相似程度的统计量很多品之间亲疏相似程度的统计量很多,目前用得最多的是距离和相似系数目前用得最多的是距离和相似系数,这两个统计量的定义与变量的类

12、型密这两个统计量的定义与变量的类型密切相关切相关,我们首先介绍变量的类型我们首先介绍变量的类型.15 5.2 距离与相似系数距离与相似系数 定量变量和定性(属性)变量 定量变量就是我们通常所说的连续变定量变量就是我们通常所说的连续变量量,例如长度、重量、产量、人口、温度例如长度、重量、产量、人口、温度等等,它们是由测量或计数、统计所得到的它们是由测量或计数、统计所得到的量量,这类变量具有数值特征这类变量具有数值特征,称为定量变量称为定量变量.根据变量取值的不同根据变量取值的不同,变量可分为两大类:变量可分为两大类:定量变量和定性定量变量和定性(属性属性)变量变量.165.2 距离与相似系数距离

13、与相似系数 定量变量和定性定量变量和定性(属性属性)变量变量 定性定性(属性属性)变量只有性质上的差异变量只有性质上的差异,例如天气例如天气(阴、阴、晴晴),性别性别(男、女男、女),产品质量分为产品质量分为 上上 中中 下三个等级下三个等级.这些变量都是这些变量都是 属性属性(定性定性)变量变量.属性变量又分为属性变量又分为名义变量和有序变量名义变量和有序变量二种二种:(1)1)有序变量有序变量:其值有明确的逻辑次序,但各个值之其值有明确的逻辑次序,但各个值之间的距离并不清楚间的距离并不清楚.(2)名义变量名义变量:其值之间无逻辑次序其值之间无逻辑次序,可按任何次序排可按任何次序排序编码序编

14、码.例如性别例如性别,职业职业,地区地区,都是名义变量都是名义变量.不同类型的变量在定义距离或相似性测度时不同类型的变量在定义距离或相似性测度时有很大差异有很大差异.17 5.2 距离与相似系数距离与相似系数 数据的变换方法数据的变换方法 设有设有n个样品个样品,每个样品测得每个样品测得m项指标项指标(变量变量),得观测数据得观测数据xij(i=1,n,j=1,m).通常将数通常将数据列成以下表格的形式据列成以下表格的形式.185.2 距离与相似系数距离与相似系数 数据的变换方法数据的变换方法 1.中心化变换中心化变换变换后数据的均值为变换后数据的均值为0,而协差阵不变,而协差阵不变.2.标准

15、化变换标准化变换 变换后的数据变换后的数据,每个变量的样本均值为每个变量的样本均值为0,标准差为标准差为1,而而且标准化变换后的数据且标准化变换后的数据x*ij与变量的量纲无关与变量的量纲无关.3.极差标准化变换极差标准化变换 变换后的数据变换后的数据,每个变量的样本均值为每个变量的样本均值为0,极差为极差为1,变换变换后的数据也是无量纲的量后的数据也是无量纲的量.19 5.2 距离与相似系数距离与相似系数 数据的变换方法数据的变换方法 4.极差正规化变换极差正规化变换(规格化变换规格化变换)变换后的数据变换后的数据0 x*ij 1;极差为极差为1,也是无量纲的量也是无量纲的量.5.对数变换对

16、数变换 它可将具有指数特征的数据结构化为线性数据结构它可将具有指数特征的数据结构化为线性数据结构.20 5.2 距离与相似系数距离与相似系数 样品间的距离样品间的距离描述样品间的亲疏程度最常用的是距离描述样品间的亲疏程度最常用的是距离.n个样品看成个样品看成m维空间中的维空间中的n个点个点,用用dij表示样表示样品品X(i)和和X(j)之间的距离之间的距离,一般要求:一般要求:dij 0,对一切对一切i,j;当当dij=0 X(i)=X(j);dij=dji,对一切对一切i,j;dij dik+dkj,对一切对一切i,j,k(三角不等式三角不等式).X(k)X(i)X(j)21 5.2 距离与

17、相似系数距离与相似系数 样品间的距离样品间的距离 1.闵科夫斯基闵科夫斯基(Minkowski)距离距离当当q=1时的一阶时的一阶Minkowski度量就称为度量就称为绝对值距离绝对值距离.22 5.2 距离与相似系数距离与相似系数 样品间的距离样品间的距离当当q=时的时的Minkowski度量称为度量称为切比雪夫距离切比雪夫距离 .当当q=2时的二阶时的二阶Minkowski度量称为度量称为欧氏距离欧氏距离.欧氏距欧氏距离是聚类分析中用得最广泛的距离离是聚类分析中用得最广泛的距离.23 5.2 距离与相似系数距离与相似系数 样品间的距离样品间的距离缺点缺点:(1)与各变量的量纲有关与各变量的

18、量纲有关;(2)没有考虑指标间的相关性没有考虑指标间的相关性;(3)没有考虑各变量方差的不同没有考虑各变量方差的不同.如欧氏如欧氏距离距离,变差大的变量在距离中的作用变差大的变量在距离中的作用(贡献贡献)就会就会大大,这是不合适的这是不合适的.合理的方法就是对各变量加权合理的方法就是对各变量加权,如用如用1/s2 作为作为权数可得出权数可得出“统计距离统计距离”:24 5.2 距离与相似系数距离与相似系数 样品间的距离样品间的距离 对对n个样品计算两两间的距离个样品计算两两间的距离dij后后,可排成可排成矩阵矩阵D d11 d12 .d1n d21 d22 .d2n D=.dn1 dn2 .d

19、nnnndij 值越小值越小,表示两个样品越接近表示两个样品越接近,dij值越值越大大,表示两个样品越不相近表示两个样品越不相近.25 5.2 距离与相似系数距离与相似系数 样品间的距离样品间的距离 2.兰氏距离兰氏距离(要求要求xij0)这是由这是由LanceLance和和WilliamsWilliams最早最早提出的提出的,故称为故称为兰氏距离兰氏距离.这是一个无量纲的量这是一个无量纲的量.克服了闵氏距离与各指标克服了闵氏距离与各指标的量纲有关的缺点的量纲有关的缺点.且兰氏距离对大的奇异值不且兰氏距离对大的奇异值不敏感敏感,这样使得它特别适合高度偏倚的数据这样使得它特别适合高度偏倚的数据.

20、但兰氏距离也没有考虑变量间的相关性但兰氏距离也没有考虑变量间的相关性.26 5.2 距离与相似系数距离与相似系数 样品间的距离样品间的距离 3.马氏距离马氏距离(Mahalanobis)马氏距离既排除了变量间相关性的干扰马氏距离既排除了变量间相关性的干扰,而且还不受各项指标量纲的影响而且还不受各项指标量纲的影响.另马氏另马氏对线性变换具有不变性对线性变换具有不变性.27 5.2 距离与相似系数距离与相似系数 样品间的距离样品间的距离 马氏距离虽然可以排除变量之间相关性的干马氏距离虽然可以排除变量之间相关性的干扰扰,并且不受量纲的影响并且不受量纲的影响,但是在聚类分析处理但是在聚类分析处理之前之

21、前,如果用全部数据计算均值和协差阵来求马如果用全部数据计算均值和协差阵来求马氏距离氏距离,效果不是很好效果不是很好.比较合理的办法是用各个类的样本来计算各比较合理的办法是用各个类的样本来计算各自的协差阵自的协差阵,同一类样品间的马氏距离应当用这同一类样品间的马氏距离应当用这一类的协差阵来计算一类的协差阵来计算,但类的形成都要依赖于样但类的形成都要依赖于样品间的距离品间的距离,而样品间合理的马氏距离又依赖于而样品间合理的马氏距离又依赖于类类,这就形成了一个这就形成了一个恶性循环恶性循环,因此在实际聚类因此在实际聚类分析中分析中,马氏距离也不是理想的距离马氏距离也不是理想的距离.285.2 距离与

22、相似系数距离与相似系数定性变量样品间的距离或相似系数定性变量样品间的距离或相似系数 6.定性变量样品间的距离或相似系数定性变量样品间的距离或相似系数 下下面面来来介介绍绍定定性性变变量量(名名义义变变量量或或有有序序变变量量)的距离或相似系数的定义方法的距离或相似系数的定义方法.在在数数量量化化理理论论中中,常常把把定定性性变变量量叫叫做做项项目目,而而把定性变量的各种不同取把定性变量的各种不同取值值叫做叫做类目类目.例例如如性性别别是是项项目目,而而男男或或女女是是这这个个项项目目的的类类目目;体体形形也也是是一一个个项项目目,而而适适中中、胖胖、瘦瘦、壮壮等等是是这这个个项项目目的的类类目

23、目.性性别别只只能能取取男男或或女女中中一一类类,不不能兼取;而体形可以是适中且壮能兼取;而体形可以是适中且壮,即兼取两类即兼取两类.305.2 距离与相似系数距离与相似系数定性变量样品间的距离或相似系数定性变量样品间的距离或相似系数设样品设样品X(i)的第的第k个项目个项目(k=1,2,m)的取值为的取值为(i(k,1),i(k,2),i(k,rk)(i=1,2,n),其其中中n为为样样品品的的个个数数,m为为项项目目的的个个数数,rk是是第第k个项目的类目数个项目的类目数.并称并称i(k,l)为第为第k项目之项目之l类目在第类目在第i个样品个样品中的反应中的反应.315.2 距离与相似系数

24、距离与相似系数定性变量样品间的距离或相似系数定性变量样品间的距离或相似系数 设设 两两 个个 样样 品品 为为 X(i)和和 X(j),若若 i(k,l)=j(k,l)=1,则则称称这这两两个个样样品品在在第第k个个项项目目的的第第l类类目目上上1-1配配对对;若若i(k,l)=j(k,l)=0,则则称称这这两两个个样样品品在在第第k个个项项目目之之l类类目目上上0-0配配对对;若若i(k,l)j(k,l),则称为则称为不配对不配对.325.2 距离与相似系数距离与相似系数定性变量样品间的距离或相似系数定性变量样品间的距离或相似系数记记m1为为X(i)和和X(j)在在m个个项项目目的的所所有有

25、类类目目中中1-1配配对对的的总总数数;m0为为0-0配配对对的的总总数数;m2为为不不配配对对总总数数.显显然然m0+m1+m2=总类目数总类目数p(p=r1+r2+rm).表表6.2给给出出两两个个样样品品的的取取“值值”情情况况.显显然然m1=3,m0=7,m2=4.项项目目数数m=4,总类目数总类目数p=14.335.2 距离与相似系数距离与相似系数定性变量样品定性变量样品间的距离或相似系数间的距离或相似系数 (1)两个样品为两个样品为X(i)和和X(j)间的距离定义为间的距离定义为 即不配对的类目数在有反应的类目即不配对的类目数在有反应的类目(包括包括1-1配对和不配对配对和不配对)

26、数中的比例数中的比例.比如比如表表6.2,dij=4/7.345.2 距离与相似系数距离与相似系数定性变量样品间的距离或相似系数定性变量样品间的距离或相似系数当当项项目目只只能能取取可可能能类类目目中中的的一一类类,不不能能兼兼取取的的情况下情况下,两样品的距离定义为两样品的距离定义为:其中其中m*2是不配对的项目是不配对的项目(变量变量)个数个数;m表示项目表示项目总个数总个数.类似于欧氏距离类似于欧氏距离,还可以定义还可以定义不配对的总数不配对的总数:355.2 距离与相似系数距离与相似系数定性变量样品间的距离或相似系数定性变量样品间的距离或相似系数(2)样品样品X(i)和和X(j)间的相

27、似性度量由表间的相似性度量由表6.3给给出几种定义方法出几种定义方法.这种相似性度量也称为这种相似性度量也称为匹配系匹配系数数 365.2 距离与相似系数距离与相似系数定性变量样品间的距离或相似系数定性变量样品间的距离或相似系数 (p+m2=2m2+m1+m0)375.2 距离与相似系数距离与相似系数 变量间的相似系数和距离变量间的相似系数和距离 在对变量进行分类时在对变量进行分类时,通常采用相似系数来表通常采用相似系数来表示变量之间的亲疏程度示变量之间的亲疏程度.设设Cij表示变量表示变量Xi和和Xj间的相似系数间的相似系数,一般要求一般要求 Cij=1 Xi=a Xj(a0,常数常数);|

28、Cij|1,对一切对一切i,j成立成立;Cij=Cji,对一切对一切i,j成立成立.|Cij|越接近越接近1,则表示则表示Xi 和和Xj 的关系越密切的关系越密切,|Cij|越接近越接近0,两者关系越疏远两者关系越疏远.385.2 距离与相似系数距离与相似系数 变量间的相似系数和距离变量间的相似系数和距离 1.夹角余弦夹角余弦 变量变量Xi的的n次观测值次观测值(x1i,x2i,xni)看成看成n维空间的维空间的向量向量.Xi 和和Xj 夹角夹角ij的余弦称为两向量的相似系数的余弦称为两向量的相似系数,记记为为Cij(1),即即当当i=j时时,夹角夹角ij=0,Cij(1)=1,说明两向量完全

29、相说明两向量完全相似似;当当Xi 和和Xj正交时正交时,ij=90,Cij(1)=0,说明两说明两变量不相关变量不相关.395.2 距离与相似系数距离与相似系数 变量间的相似系数和距离变量间的相似系数和距离 2.相关系数相关系数 相关系数就是对数据作中心化或标准化处理相关系数就是对数据作中心化或标准化处理后的夹角余弦后的夹角余弦.变量变量Xi 和和Xj的相关系数常用的相关系数常用rij表表示示,在这里我们记为在这里我们记为Cij(2),即即当当i=j时时,Cij(2)=1表示两变量线性相关表示两变量线性相关.一般情况一般情况,|Cij(2)|1.405.2 距离与相似系数距离与相似系数 变量间

30、的相似系数和距离变量间的相似系数和距离 3.变量间的距离变量间的距离 (1)利用相似系数来定义变量间的距离利用相似系数来定义变量间的距离 令令 dij=1-|Cij|或或 d2ij=1-C2ij (i,j=1,2,m).(2)利用样本协差阵来定义距离利用样本协差阵来定义距离 设样本协差阵设样本协差阵S=(sij)0,变量变量Xi和和Xj 间的距离间的距离可定义为可定义为 dij=sii +sjj -2 sij (3)把变量把变量Xi的的n次观测值看成次观测值看成n维空间的点维空间的点.在在n维空间中按维空间中按“样品间的距离和相似系数样品间的距离和相似系数”中介中介绍的方法类似可定义绍的方法类

31、似可定义m个变量间的种种距离个变量间的种种距离.415.2 距离与相似系数距离与相似系数定性变量间的相似系数定性变量间的相似系数 4.定性变量间的相似系数定性变量间的相似系数 当变量当变量Xi是定性变量时是定性变量时,也可以定义多也可以定义多种相似系数种相似系数.设变量设变量Xi的的p种取值记为种取值记为r1 1,r2 2,rp(或称项目或称项目Xi有有p个类目个类目););Xj的的q种取值记种取值记为为t1 1,t2 2,tq.n个样品中两个定性变量的个样品中两个定性变量的实际观察数列成表实际观察数列成表6.4,6.4,其中其中nkl表示在表示在n个个样品中样品中Xi取取rk且且Xj取取tl

32、的频数的频数.通常称表通常称表6.46.4为列联表为列联表.425.2 距离与相似系数距离与相似系数定性变量间的相似系数定性变量间的相似系数 435.2 距离与相似系数距离与相似系数定性变量间的相似系数定性变量间的相似系数 利用列联表对两定性变量独立性的检验中常用利用列联表对两定性变量独立性的检验中常用到的统计量到的统计量建立在卡方统计量基础上的相似系数有建立在卡方统计量基础上的相似系数有 (1)联列系数联列系数445.2 距离与相似系数距离与相似系数定性变量间的相似系数定性变量间的相似系数 (2)连关系数(有三种)连关系数(有三种)455.2 距离与相似系数距离与相似系数定性变量间的相似系数

33、定性变量间的相似系数 如果如果Xi和和Xj只取二个值只取二个值(不妨记为不妨记为0或或1),则列联表化为则列联表化为:这时常用的相似系数有这时常用的相似系数有 (3)点相关系数点相关系数(6.2.2)465.2 距离与相似系数距离与相似系数定性变量间的相似系数定性变量间的相似系数 点点相关系数是与定量变量的相关系数相对应的统计量。相关系数是与定量变量的相关系数相对应的统计量。(4)四分相关系数四分相关系数(5)夹角余弦夹角余弦(6.2.3)475.2 距离与相似系数距离与相似系数定性变量间的相似系数定性变量间的相似系数 考虑到考虑到Cij=Cji,改进的统计量为改进的统计量为48 5.3 系统

34、聚类方法系统聚类方法 Hierachical Clustering Method 聚类所需的数据可以是通常的多变量的观测聚类所需的数据可以是通常的多变量的观测记录记录,也可以是描述样品间或变量间亲近也可以是描述样品间或变量间亲近(proximity)程度的一个矩阵程度的一个矩阵.如用相关系数描如用相关系数描述相似程度或用距离描述不相关程度。述相似程度或用距离描述不相关程度。根据亲近程度进行聚类有多种方法根据亲近程度进行聚类有多种方法,常用的常用的方法是系统聚类方法方法是系统聚类方法(Hierachical Clustering Method).他将他将n个样品各自看成一类个样品各自看成一类,然

35、后选择然后选择距离最近距离最近(或最相似或最相似)的一对合并成一个新类的一对合并成一个新类.再再将距离最近的两类合并成一个新的类将距离最近的两类合并成一个新的类.每一步减每一步减少一个类少一个类,直至所有样品都成为一个类为止直至所有样品都成为一个类为止.495.3 系统聚类方法系统聚类方法系统聚类法的基本思想和基本步骤系统聚类法的基本思想和基本步骤 设有设有n个样品个样品,每个样品测得每个样品测得m项指标项指标.首先定义样品间的距离首先定义样品间的距离(或相似系数或相似系数)和类与和类与类之间的距离类之间的距离.系统聚类方法的基本思想是系统聚类方法的基本思想是:一开始将一开始将n个样品各自自成

36、一类个样品各自自成一类,这时类间的这时类间的距离与样品间的距离是等价的距离与样品间的距离是等价的;然后将距离最近然后将距离最近的两类合并的两类合并,并计算新类与其他类的类间距离并计算新类与其他类的类间距离,再按最小距离并类再按最小距离并类.这样每次缩小一类这样每次缩小一类,直到所直到所有的样品都成一类为止有的样品都成一类为止.这个并类过程可以用谱这个并类过程可以用谱系聚类图形象地表达出来系聚类图形象地表达出来.505.3 系统聚类方法系统聚类方法系统聚类法的基本思想和基本步骤系统聚类法的基本思想和基本步骤 系统聚类法的基本步骤如下:系统聚类法的基本步骤如下:数据变换数据变换:可以使用上节介绍的

37、方法对数可以使用上节介绍的方法对数据进行变换据进行变换.数据变换目的是为了便于比较、计数据变换目的是为了便于比较、计算上的方便或改变数据的结构算上的方便或改变数据的结构.选择度量样品间距离的定义选择度量样品间距离的定义(如欧氏距离如欧氏距离)及及度量类间距离的定义度量类间距离的定义(如最短距离法如最短距离法,见下面见下面“系系统聚类分析的方法统聚类分析的方法”中的介绍中的介绍).计算计算n个样品个样品(个体个体)两两间的距离两两间的距离,得初始得初始的距离矩阵的距离矩阵D(1).0515.3 系统聚类方法系统聚类方法系统聚类法的基本思想和基本步骤系统聚类法的基本思想和基本步骤 一开始一开始(第

38、一步第一步:i=1)n个样品各自构成一类个样品各自构成一类,得类的个数得类的个数k=n个类:个类:Gt=X(t)(t=1,n).此时类间的距离就是样品间的距离此时类间的距离就是样品间的距离.对步骤对步骤i=2,n执行并类过程的步骤执行并类过程的步骤和和.步骤步骤i得到的得到的D(i-1),每次合并类间距离最小每次合并类间距离最小的两类为一新类的两类为一新类.此时类的总个数此时类的总个数k减少减少1类,即类,即k=n-i+1.计算新类与其他类的距离计算新类与其他类的距离,得新的距离矩阵得新的距离矩阵D(i).若此时类的总个数若此时类的总个数k大于大于1类类,重复重复和和步步;直到类的总个数为直到

39、类的总个数为1时止时止.525.3 系统聚类方法系统聚类方法系统聚类法的基本思想和基本步骤系统聚类法的基本思想和基本步骤 画谱系聚类图;画谱系聚类图;决定分类的个数及各类的成员决定分类的个数及各类的成员.当临界值当临界值d=2.01应分为两类应分为两类当临界值当临界值d=1.51应分为三类应分为三类当临界值当临界值d=1.01应分为四类应分为四类535.3 系统聚类方法系统聚类方法应用简例应用简例 例例6.3.1 设有设有5个产品个产品,每个产品测得一项每个产品测得一项质量指标质量指标X,其值如下:其值如下:1,2,4.5,6,8.试对试对5个产个产品按质量指标进行分类品按质量指标进行分类.解

40、解 设样品间的距离取为欧氏距离设样品间的距离取为欧氏距离,类间的类间的距离取为类间的最短距离距离取为类间的最短距离.根据上面介绍的步根据上面介绍的步骤骤,计算如下:计算如下:计算计算5个样品个样品X(1),X(2),X(3),X(4),X(5)两两间的距离,得初始的类间距离矩阵两两间的距离,得初始的类间距离矩阵D(1):545.3 系统聚类方法系统聚类方法应用简例应用简例 一开始一开始n个样品各自构成一类个样品各自构成一类,得得5个类:个类:Gi=X(i)(i=1,5),类的个数类的个数k=5.=D(1)124.568555.3 系统聚类方法系统聚类方法应用简例应用简例 由由D(1)可知距离为

41、可知距离为1时最小时最小,首先合并首先合并X(1)和和X(2)为一新类,记为为一新类,记为CL4=X(1),X(2);此时类的总个数此时类的总个数k减少减少1类类,变为变为k=4,故把此步得到的新类记为故把此步得到的新类记为CL4.按最短距离法计算新类按最短距离法计算新类CL4与其他与其他类的距离,得新的距离矩阵类的距离,得新的距离矩阵D(2).565.3 系统聚类方法系统聚类方法应用简例应用简例 因此时类的总个数因此时类的总个数k=4大于大于1类类,重复并类过重复并类过程程.=D(2)124.568CL4575.3 系统聚类方法系统聚类方法应用简例应用简例 由由D(2)可知距离为可知距离为1

42、.5时最小时最小,故合并故合并X(3)和和X(4)为一新类为一新类,记为记为CL3=X(3),X(4);此时此时类的总个数类的总个数k减少减少1类类,变为变为k=3,故把此步得到故把此步得到的新类记为的新类记为CL3.按最短距离法计算新类按最短距离法计算新类CL3与其他类的与其他类的距离距离,得新的距离矩阵得新的距离矩阵D(3).=D(3)585.3 系统聚类方法系统聚类方法应用简例应用简例 因此时类的总个数因此时类的总个数k=3大于大于1类类,重复并类过重复并类过程程.由由D(3)可知,应合并可知,应合并X(5)和和CL3为一新类为一新类,记为记为CL2=X(5),X(3),X(4);此时类

43、的总个数此时类的总个数k减减少少1类类,变为变为k=2,故把此步得到的新类为故把此步得到的新类为CL2.按最短距离法计算新类按最短距离法计算新类CL2与其他类的距与其他类的距离离,得新的距离矩阵得新的距离矩阵D(4).=D(4)595.3 系统聚类方法系统聚类方法应用简例应用简例 因此时类的总个数因此时类的总个数k=2大于大于1类类,重复并类过重复并类过程程.由由D(4)可知可知,最后应合并最后应合并CL4和和CL2为一为一新类新类,记为记为CL1=X(1),X(2),X(3),X(4),X(5);此此时类的总个数时类的总个数k=1,故把此步得到的新类为故把此步得到的新类为CL1.此时所有样品

44、全并成一类此时所有样品全并成一类,得新的距离矩得新的距离矩阵阵D(5).=D(5)605.3 系统聚类方法系统聚类方法应用简例应用简例 根据并类过程绘制的谱系聚类图根据并类过程绘制的谱系聚类图615.3 系统聚类方法系统聚类方法应用简例应用简例 1824.56并类的直观过程并类的直观过程 X(1)X(2)X(3)X(4)X(5)625.3 系统聚类方法系统聚类方法应用简例应用简例 根据谱系聚类图可得到分类的结果根据谱系聚类图可得到分类的结果:若分为两类若分为两类,则分为则分为:X(1),X(2)和和X(5),X(3),X(4)若分为三类若分为三类,则分为则分为:X(1),X(2),X(5)和和

45、 X(3),X(4);若分为四类若分为四类,则分为则分为:X(1),X(2),X(5)和和X(3)和和 X(4);若分为五类若分为五类,则分为则分为:X(1),X(2),X(3),X(4)和和 X(5).635.3 系统聚类方法系统聚类方法系统聚类分析的方法系统聚类分析的方法 系统聚类法的聚类原则决定于样品间的距离系统聚类法的聚类原则决定于样品间的距离(或相似系数或相似系数)及类间距离的定义及类间距离的定义,类间距离的类间距离的不同定义就产生了不同的系统聚类分析方法不同定义就产生了不同的系统聚类分析方法.几个记号几个记号:用用dij表示样品表示样品X(i)和和X(j)之间的距离之间的距离,当样

46、品间的亲疏关系采用相似系数当样品间的亲疏关系采用相似系数C Cijij 时时,令令 dij=1-|Cij|(或或 d2ij=1-C2ij););用用Dij表示类表示类Gi和和Gj间的距离间的距离.645.3 系统聚类方法系统聚类方法系统聚类分析的方法系统聚类分析的方法-最短距离法最短距离法1.1.最短距离法最短距离法(SINgleSINgle linkage)linkage)类与类之间的距离定义为两类中最近样品之类与类之间的距离定义为两类中最近样品之间的距离间的距离,即类即类Gp和和Gq之间的距离之间的距离Dpq定义为定义为比如比如:当当G1=1,2,=1,2,G2=4.5,6=4.5,6时时

47、,D12 2=4.5-2=2.5=4.5-2=2.5(即最近两即最近两样品样品x(2 2)=2=2和和x(3 3)=4.5=4.5之间的距离之间的距离)655.3 系统聚类方法系统聚类方法系统聚类分析的方法系统聚类分析的方法-最短距离法最短距离法 例例6.3.16.3.1中类间距离就是使用最短距离中类间距离就是使用最短距离法定义的法定义的.当某步类当某步类Gp和和Gq合并为合并为Gr后后,按最短距离法计算按最短距离法计算新类新类Gr与其他类与其他类Gk的类间距离,递推公式为的类间距离,递推公式为665.3 系统聚类方法系统聚类方法系统聚类分析的方法系统聚类分析的方法-最短距离法最短距离法如第一

48、步类如第一步类G1和和G2合并为合并为Gr(记为记为CL4)CL4)后后,按最按最短距离法计算新类短距离法计算新类Gr与其他类与其他类Gk(k=3,4,5)=3,4,5)的类的类间距离,按递推公式计算间距离,按递推公式计算:由由可得可得675.3 系统聚类方法系统聚类方法系统聚类分析的方法系统聚类分析的方法-最长距离法最长距离法2.2.最长距离法最长距离法(COMpleteCOMplete method)method)类与类之间的距离定义为两类中最远样品之类与类之间的距离定义为两类中最远样品之间的距离间的距离,即类即类Gp和和Gq之间的距离之间的距离Dpq定义为定义为 类类Gp和和Gq合并为合

49、并为Gr后后,按最长距离法计算新按最长距离法计算新类类Gr与其他类与其他类Gk的类间距离也有类似的递推公的类间距离也有类似的递推公式式:比如比如:当当G1 1=1,2,=1,2,G2 2=4.5,6=4.5,6时时,D1212=6-1=5.=6-1=5.685.3 系统聚类方法系统聚类方法系统聚类分析的方法系统聚类分析的方法-中间中间距离法距离法3.3.中间距离法中间距离法(MEDianMEDian method)method)如果类与类之间的距离既不采用两类间的最如果类与类之间的距离既不采用两类间的最近距离近距离,也不采用最远的距离也不采用最远的距离,而是采用介于两而是采用介于两者间的距离者

50、间的距离,这种方法称为中间距离法这种方法称为中间距离法.GqGr GkDrk(短短)=DpkDrk(长长)=DqkDrk(中中)GpDpq695.3 系统聚类方法系统聚类方法系统聚类分析的方法系统聚类分析的方法-中间中间距离法距离法 当某步类当某步类Gp和和Gq合并为合并为Gr后后,按中间距离法按中间距离法 计算新类计算新类Gr与其他类与其他类Gk的类间距离,递推公的类间距离,递推公式为式为(-1/4(-1/40)0)当当=-1/4时时,由初等几何知由初等几何知Drk就是上面三角就是上面三角形的中线形的中线.如果用如果用最长距离法最长距离法,则则 Drk=Dqk;用最短距离法用最短距离法,则则

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁