聚类分析和主成分分析.ppt

上传人:wuy****n92 文档编号:90619452 上传时间:2023-05-17 格式:PPT 页数:88 大小:5.19MB
返回 下载 相关 举报
聚类分析和主成分分析.ppt_第1页
第1页 / 共88页
聚类分析和主成分分析.ppt_第2页
第2页 / 共88页
点击查看更多>>
资源描述

《聚类分析和主成分分析.ppt》由会员分享,可在线阅读,更多相关《聚类分析和主成分分析.ppt(88页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、聚聚聚聚 类类类类 分分分分 析析析析计算机在生物工程中的应用计算机在生物工程中的应用上海应用技术学院上海应用技术学院香料香精技术与工程学院香料香精技术与工程学院授课老师:王授课老师:王 一一 非非 QQ:46478797 QQ:46478797 “物以类聚,人以群分物以类聚,人以群分”,现实世界中存在,现实世界中存在大量的分类问题。大量的分类问题。一、什么是聚类分析?一、什么是聚类分析?聚类分析聚类分析(ClusterAnalysis)是物以类聚的是物以类聚的一种统计分析法。一种统计分析法。用于对事物类别的面貌尚不清楚,甚至在用于对事物类别的面貌尚不清楚,甚至在事事前连总共有几类都不能确定前

2、连总共有几类都不能确定的情况下进行分的情况下进行分类的场合。类的场合。一、什么是聚类分析?一、什么是聚类分析?聚类是一个将数据集划分为若干组或类的聚类是一个将数据集划分为若干组或类的过程,并使得过程,并使得同一个组内的数据对象具有同一个组内的数据对象具有较高的相似度较高的相似度;而不同组中的数据对象是;而不同组中的数据对象是不相似的。不相似的。相似或不相似的描述是基于数据描述属性相似或不相似的描述是基于数据描述属性的取值来确定的。通常就是的取值来确定的。通常就是利用(各对象利用(各对象间)距离来进行表示间)距离来进行表示的。的。许多领域,包括食品感官与品质分析,物许多领域,包括食品感官与品质分

3、析,物种分类,风味物质研究等等种分类,风味物质研究等等二、聚类分析的典型应用二、聚类分析的典型应用在在商业方面商业方面,聚类分析可以帮助市场人员发现顾客,聚类分析可以帮助市场人员发现顾客群中所存在的不同特征的组群;并可以利用购买模群中所存在的不同特征的组群;并可以利用购买模式来描述这些不同特征的顾客组群。式来描述这些不同特征的顾客组群。在在生物方面生物方面,聚类分析可以用来获取动物或植物所,聚类分析可以用来获取动物或植物所存在的层次结构,以及根据基因功能对其进行分类存在的层次结构,以及根据基因功能对其进行分类以获得对人群中所固有的结构更深入的了解。以获得对人群中所固有的结构更深入的了解。聚类还

4、可以从地球观测数据库中帮助识别具有相似聚类还可以从地球观测数据库中帮助识别具有相似的土地使用情况的区域。的土地使用情况的区域。此外还可以帮助分类识别互联网上的文档以便进行此外还可以帮助分类识别互联网上的文档以便进行信息发现。信息发现。二、聚类分析的典型应用二、聚类分析的典型应用作为数据挖掘的一项功能,聚类分析还可以作为作为数据挖掘的一项功能,聚类分析还可以作为一个单独使用的工具,来帮助分析数据的分布、一个单独使用的工具,来帮助分析数据的分布、了解各数据类的特征、确定所感兴趣的数据类以了解各数据类的特征、确定所感兴趣的数据类以便作进一步分析。便作进一步分析。聚类分析也可以作为其它算法(诸如:分类

5、和定聚类分析也可以作为其它算法(诸如:分类和定性归纳算法)的预处理步骤。性归纳算法)的预处理步骤。二、聚类分析的典型应用二、聚类分析的典型应用数据聚类分析是一个正在蓬勃发展的数据聚类分析是一个正在蓬勃发展的领域。聚类分析所涉及的领域包括:领域。聚类分析所涉及的领域包括:数据挖掘、统计学、机器学习、空间数据库技术、数据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等。由于各应用数据库所包含的生物学和市场学等。由于各应用数据库所包含的数据量越来越大,数据量越来越大,聚类分析已成为数据挖掘研究聚类分析已成为数据挖掘研究中一个非常活跃的研究课题中一个非常活跃的研究课题。作为统计学的一个分支,聚

6、类分析已有多作为统计学的一个分支,聚类分析已有多年的研究历史,这些研究主要集中在年的研究历史,这些研究主要集中在基于基于距离的聚类分析距离的聚类分析方面。方面。许多统计软件包,诸如:许多统计软件包,诸如:SAS、SPSS和和S-PLUS等都包含它许多聚类分析工具。等都包含它许多聚类分析工具。二、聚类分析的典型应用二、聚类分析的典型应用三、聚类分析应用解析三、聚类分析应用解析例例对对10位应聘者做智能检验。位应聘者做智能检验。3项指标项指标X,Y和和Z分别表示:分别表示:X-数学推理能力,数学推理能力,Y-空间想象能力和空间想象能力和Z-语言理解能力。其得分如下,选择语言理解能力。其得分如下,选

7、择合适的统计方法对应聘者进行分类。合适的统计方法对应聘者进行分类。应聘者应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424我们直观地来看,这个分类是否合理?我们直观地来看,这个分类是否合理?计算计算4号和号和6号得分的离差平方和:号得分的离差平方和:(21-20)2+(23-23)2+(22-22)2=1计算计算1号和号和2号得分的离差平方和:号得分的离差平方和:(28-18)2+(29-23)2+(28-18)2=236计算计算1号和号和3号得分的离差平方和为号得分的离差平方和为482,由

8、此可见一,由此可见一般,般,4号和号和6号类型接近。号类型接近。我们的问题是如何来选择样品间相似的测度指标,如何我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?将有相似性的类连接起来?三、聚类分析应用解析三、聚类分析应用解析四、变量测量尺度的类型四、变量测量尺度的类型间隔尺度。间隔尺度。指标度量时用数量来表示,其数值由测量或计数、指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是得到的数量是离散数量离散数量,测量得到的数量是,测量得到的数量是连续数量连续数量。在

9、间。在间隔尺度中如果存在绝对零点,又称比例尺度。隔尺度中如果存在绝对零点,又称比例尺度。顺序尺度。顺序尺度。指标度量时没有明确的数量表示,只有次序关系,指标度量时没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个表示一个有序状态序列有序状态序列。如评价酒的味道,分成好、中、次。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。三等,三等有次序关系,但没有数量表示。名义尺度。名义尺度。指标度量时既没有数量表示也没有次序关系,只指标度量时既没有数量表示也没有次序关系,只有一些有一些特性

10、状态特性状态,如眼睛的颜色,化学中催化剂的种类等。,如眼睛的颜色,化学中催化剂的种类等。在名义尺度中只取两种特性状态的变量是很重要的,如电路在名义尺度中只取两种特性状态的变量是很重要的,如电路的开和关,天气的有雨和无雨,人口性别的男和女,医疗诊的开和关,天气的有雨和无雨,人口性别的男和女,医疗诊断中的断中的“十十”和和“一一”,市场交易中的买和卖等都是此类变,市场交易中的买和卖等都是此类变量。量。五、聚类分析方法五、聚类分析方法系统聚类法。系统聚类法。先将先将n个元素看成个元素看成n类,然后将性质最接类,然后将性质最接近(或相似程度最大)的两类合并为一个新类,得到近(或相似程度最大)的两类合并

11、为一个新类,得到n-1类。再从中找出最接近的两类加以合并,变成类。再从中找出最接近的两类加以合并,变成n-2类。如此下去,最后所有的元素全聚在一类之中。类。如此下去,最后所有的元素全聚在一类之中。调优法。调优法。先将样品做一个初始的分类,然后按照某种先将样品做一个初始的分类,然后按照某种最优的原则逐步调整,一直调整到分类比较合理为止。最优的原则逐步调整,一直调整到分类比较合理为止。图论法图论法。从几何观点来考虑。将。从几何观点来考虑。将n个样品看成个样品看成m维空间维空间的的n个点,点与点间用直线连接,从而构成个点,点与点间用直线连接,从而构成m维空间的维空间的点的连接图,再应用图论的观点将样

12、本点在点的连接图,再应用图论的观点将样本点在m维空间维空间作最小支撑数,最终达到分类目的。作最小支撑数,最终达到分类目的。六、六、tree过程过程画出用于描述整个聚类过程的树状图画出用于描述整个聚类过程的树状图两种:两种:根在顶部根在顶部根在左侧根在左侧被聚类的个体称为叶被聚类的个体称为叶包含所有个体的类称为根包含所有个体的类称为根根根叶叶枝枝七、运用七、运用SAS进行聚类分析进行聚类分析下表列出了下表列出了1999年全国年全国31个省市和自治区的城镇个省市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量居民家庭平均每人全年消费性支出的八个主要变量数据。这八个变量是:数据。这八个变量

13、是:x1-x8食品、衣着、家庭设备用品及服务、医疗保健、交食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和通和通讯、娱乐教育文化服务、居住、杂项商品和服务。服务。分别用分别用最短距离法、重心法和离差平方和法(最短距离法、重心法和离差平方和法(Ward法)法)作聚类分析作聚类分析七、运用七、运用SAS进行聚类分析进行聚类分析最短距离法(最短距离法(SingleLinkage)最长距离法(最长距离法(CompleteMethod)中间距离法(中间距离法(MedianMethod)重心法(重心法(CentroidMethod)类平均法(类平均法(Average

14、Linkage)可变类平均法(可变类平均法(Flexible-BetaMethod)密度估计法(密度估计法(DensityLinkage)Mcquitty相似分析法(相似分析法(McquittysSimilarityAnalysis)两阶段密度估计法(两阶段密度估计法(Two-StageDensityLinkage)最大似然法(最大似然法(Elm)Ward离差平方和法离差平方和法(WardSMininum-VarianceMethod)七、运用七、运用SAS进行聚类分析进行聚类分析七、运用七、运用SAS进行聚类分析进行聚类分析系统聚类法系统聚类法具体方法具体方法提问:提问:1)$符号含义符号含

15、义2)horizontal七、运用七、运用SAS进行聚类分析进行聚类分析最短距离法最短距离法七、运用七、运用SAS进行聚类分析进行聚类分析重心法重心法七、运用七、运用SAS进行聚类分析进行聚类分析离差平方和法离差平方和法七、运用七、运用SAS进行聚类分析进行聚类分析八、实例分析八、实例分析前言前言-意义意义前言前言-内容内容原料原料-试剂试剂-方方法法-数据分析数据分析线性回归线性回归简要结论简要结论七、运用七、运用SAS进行聚类分析进行聚类分析七、运用七、运用SAS进行聚类分析进行聚类分析聚类数聚类数累积聚类结果累积聚类结果七、运用七、运用SAS进行聚类分析进行聚类分析八、案例赏析八、案例赏

16、析八、案例赏析八、案例赏析八、案例赏析八、案例赏析八、案例赏析八、案例赏析八、案例赏析八、案例赏析分成分成2 2类类每一类进行每一类进行单因素分析单因素分析主主主主 成成成成 分分分分 分分分分 析析析析基本思想基本思想一项十分著名的工作是美国的统计学家斯通一项十分著名的工作是美国的统计学家斯通(stone)在在1947年关于国民经济的研究。他曾利用美国年关于国民经济的研究。他曾利用美国1929一一1938年年各年的数据,得到了各年的数据,得到了17个反映国民收入与支出的变量要素,个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增例如雇主补贴、消费资料和生产资料

17、、纯公共支出、净增库存、股息、利息外贸平衡等等。库存、股息、利息外贸平衡等等。在在进进行行主主成成分分分分析析后后,竟竟以以97.4的的精精度度,用用三三新新变变量量就就取取代代了了原原17个个变变量量。根根据据经经济济学学知知识识,斯斯通通给给这这三三个个新新变变量量分分别别命命名名为为总总收收入入F1、总总收收入入变变化化率率F2和和经经济济发发展展或或衰衰退退的的趋趋势势F3。更更有有意意思思的的是是,这这三三个个变变量量其其实实都都是是可可以以直直接接测测量量的的。斯斯通通将将他他得得到到的的主主成成分分与与实实际际测测量量的的总总收收入入I、总收入变化率总收入变化率 I以及时间以及时

18、间t因素做相关分析,得到下表:因素做相关分析,得到下表:F1F2F3iitF11F201F3001i0.995-0.0410.057li-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.1121基本思想基本思想主主成成分分分分析析是是把把各各变变量量之之间间互互相相关关联联的的复复杂杂关关系系进进行简化分析的方法。行简化分析的方法。在在社社会会经经济济的的研研究究中中,为为了了全全面面系系统统的的分分析析和和研研究究问问题题,必必须须考考虑虑许许多多经经济济指指标标,这这些些指指标标能能从从不不同同的的侧侧面面反反映映我我们们所所研研究究的

19、的对对象象的的特特征征,但但在在某某种种程程度上存在信息的重叠,度上存在信息的重叠,具有一定的相关性。具有一定的相关性。成成分分分分析析试试图图在在力力保保数数据据信信息息丢丢失失最最少少的的原原则则下下,对对这这种种多多变变量量的的截截面面数数据据表表进进行行最最佳佳综综合合简简化化,也也就是说,就是说,对高维变量空间进行降维处理对高维变量空间进行降维处理。很很显显然然,识识辨辨系系统统在在一一个个低低维维空空间间要要比比在在一一个个高高维维空间容易得多。空间容易得多。基本思想基本思想在在力力求求数数据据信信息息丢丢失失最最少少的的原原则则下下,对对高高维维的的变变量量空空间间降降维维,即即

20、研研究究指指标标体体系系的的少少数数几几个个线线性性组组合合,并并且且这这几几个个线线性性组组合合所所构构成成的的综综合合指指标标将将尽尽可可能能多多地地保保留留原原来来指指标标变变异异方方面面的的信信息息。这这些些综综合指标就称为合指标就称为主成分主成分。基本思想基本思想基本思想基本思想基基于于相相关关系系数数矩矩阵阵还还是是基基于于协协方方差差矩矩阵阵做做主主成成分分分分析析。当当分分析析中中所所选选择择的的经经济济变变量量具具有有不不同同的的量量纲纲,变变量量水水平平差差异异很很大大,应应该该选选择择基基于于相相关关系系数数矩矩阵阵的的主成分分析。主成分分析。选选择择几几个个主主成成分分

21、。主主成成分分分分析析的的目目的的是是简简化化变变量量,一一般般情情况况下下主主成成分分的的个个数数应应该该小小于于原原始始变变量量的的个个数数。关关于于保保留留几几个个主主成成分分,应应该该权权衡衡主主成成分分个个数数和和保保留留的信息。的信息。如何解释主成分所包含的经济意义。如何解释主成分所包含的经济意义。为为了了方方便便,我我们们在在二二维维空空间间中中讨讨论论主主成成分分的的几几何何意意义义。设设有有n个个样样品品,每每个个样样品品有有两两个个观观测测变变量量xl和和x2,在在由由变变量量xl和和x2所所确确定定的的二二维维平平面面中中,n个个样样本本点点所所散散布布的的情情况况如如椭

22、椭圆圆状状。由由图图可可以以看看出出这这n个个样样本本点点无无论论是是沿沿着着xl轴轴方方向向或或x2轴轴方方向向都都具具有有较较大大的的离离散散性性,其其离离散散的的程程度度可可以以分分别别用用观观测测变变量量xl的的方方差差和和x2的的方方差差定定量量地地表表示示。显显然然,如如果果只只考考虑虑xl和和x2中中的的任任何何一一个个,那那么么包包含含在在原原始始数数据据中中的的经经济济信信息将会有较大的损失息将会有较大的损失。数学模型和几何解释数学模型和几何解释主成分分析的几何解释主成分分析的几何解释平移、旋转坐标轴平移、旋转坐标轴主成分分析的几何解释主成分分析的几何解释平移、旋转坐标轴平移

23、、旋转坐标轴 我我们们进进行行主主成成分分分分析析的的目目的的之之一一是是希希望望用用尽尽可可能能少少的的主主成成分分F1,F2,Fk(kp)代代替替原原来来的的P个个指指标标。到到底底应应该该选选择择多多少少个个主主成成分分,在在实实际际工工作作中中,主主成成分分个个数数的的多多少少取取决决于于能能够够反反映映原原来来变变量量80%以以上上的的信信息息量量为为依依据据,即即当当累累积积贡贡献献率率80%时时的的主主成成分分的的个个数数就就足足够够了了。最最常常见见的的情情况况是是主主成成分分为为2到到3个个。数学模型和几何解释数学模型和几何解释主成分分析的数据结构主成分分析的数据结构用编程法

24、进行主成分分析用编程法进行主成分分析测测得得10名名幼幼儿儿的的体体重重(x1,kg)、身身高高(x2,cm)。试做主成分分析。试做主成分分析。用编程法进行主成分分析用编程法进行主成分分析系数越大,说明主成分受该系数越大,说明主成分受该指标的影响也就越大指标的影响也就越大累积贡献率达到累积贡献率达到100%100%用用SAS/ASSIST进行主成分分析进行主成分分析用用SAS/ASSIST进行主成分分析进行主成分分析用用SAS/ASSIST进行主成分分析进行主成分分析用用SAS/ASSIST进行主成分分析进行主成分分析用用SAS/ASSIST进行主成分分析进行主成分分析用用SAS进行主成分分析

25、进行主成分分析用用SAS进行主成分分析进行主成分分析用用SAS进行主成分分析进行主成分分析用用SAS进行主成分分析进行主成分分析用用SAS进行主成分分析进行主成分分析用用SAS进行主成分分析进行主成分分析用用SAS进行主成分分析进行主成分分析用用SAS进行主成分分析进行主成分分析某经济分析数据某经济分析数据Y:进口总额:进口总额X1:GDPX2:积累总额:积累总额X3:消费总额:消费总额求进口总额与求进口总额与GDP、积累总额和消费总额之间的、积累总额和消费总额之间的回归方程。回归方程。用用SAS进行主成分分析进行主成分分析data zhucf;input x1 x2 x3 y;cards;1

26、49.3 4.2 108.1 15.9161.2 4.1 114.8 16.4171.5 3.1 123.2 19.0175.5 3.1 126.9 19.1180.8 1.1 132.1 18.8190.7 2.2 137.7 20.4202.1 2.1 146.0 22.7212.4 5.6 154.1 26.5226.1 5.0 162.3 28.1231.9 5.1 164.3 27.6239.0 0.7 167.6 26.3;P1=0.706x1+0.043x2+0.706x3P1=0.706x1+0.043x2+0.706x3朗莱用美国联邦政府雇员人数朗莱用美国联邦政府雇员人数Y国民总产出隐含平减指数国民总产出隐含平减指数X1,国民总产出,国民总产出X2,失业,失业人数人数X3,武装力量人数,武装力量人数X4,14岁及以上非慈善机岁及以上非慈善机构人口数构人口数X5,时间变量,时间变量X6。朗莱所用数据是美国朗莱所用数据是美国4762年数据,该例是主成分年数据,该例是主成分回归用得较早的例子。回归用得较早的例子。用用SAS/ASSIST进行主成分分析进行主成分分析用用SAS/ASSIST进行主成分分析进行主成分分析实例分析实例分析1实例分析实例分析1实例分析实例分析1单因素方差分析单因素方差分析

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁