《聚类分析和判别分析 (2)课件.ppt》由会员分享,可在线阅读,更多相关《聚类分析和判别分析 (2)课件.ppt(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、聚类分析和判别分析第1页,此课件共30页哦 在实际生活中经常需要使用聚类分析对事物进行分类,在总体类别已在实际生活中经常需要使用聚类分析对事物进行分类,在总体类别已知时需要使用判别分析对研究对象进行归类。在知时需要使用判别分析对研究对象进行归类。在SPSSSPSS中其菜单打开中其菜单打开方式为:选择方式为:选择“分析分析”“”“分类分类”命令,打开如图所示的命令,打开如图所示的“分分类类”菜单。菜单。第2页,此课件共30页哦8.1 聚类分析基本原理聚类分析作为一种重要的分类方法,其实质在于通过研究对象聚类分析作为一种重要的分类方法,其实质在于通过研究对象之间的亲疏关系将相似的对象划分为一类,不
2、相似的对象划分之间的亲疏关系将相似的对象划分为一类,不相似的对象划分到不同的类别当中。在本节中将介绍聚类分析的概念、计算方到不同的类别当中。在本节中将介绍聚类分析的概念、计算方法和聚类结果的评价等。法和聚类结果的评价等。第3页,此课件共30页哦8.1.1 聚类分析简介 聚类分析(聚类分析(Cluster AnalysisCluster Analysis)是根据事物本身的特征通过统计方)是根据事物本身的特征通过统计方法对事物进行分类的多元分析方法,可以通过数据建模达到简化数据法对事物进行分类的多元分析方法,可以通过数据建模达到简化数据的目的。聚类分析也称为分类分析、数值分类或集群分析等。根据分的
3、目的。聚类分析也称为分类分析、数值分类或集群分析等。根据分类对象的不同,聚类分析可分为样本聚类和变量聚类两种。类对象的不同,聚类分析可分为样本聚类和变量聚类两种。第4页,此课件共30页哦8.1.2 聚类分析的计算 在聚类分析过程中,需要区分为不同的类,事物是怎样划分到不同的在聚类分析过程中,需要区分为不同的类,事物是怎样划分到不同的类别当中的呢?判断不同事物是否归于一类依据的是事物之间的相似类别当中的呢?判断不同事物是否归于一类依据的是事物之间的相似性。事物相似性的度量标准一般有两种:距离和相似性系数,距离一性。事物相似性的度量标准一般有两种:距离和相似性系数,距离一般用来度量样本之间的相似性
4、,而相似性系数一般是用来度量变量之般用来度量样本之间的相似性,而相似性系数一般是用来度量变量之间的相似性。间的相似性。第5页,此课件共30页哦1 1距离距离距离的计算根据观测指标数据类型的不同可以分为两种情况:距离的计算根据观测指标数据类型的不同可以分为两种情况:如果观测指标是非连续数据,需要采用卡方分析等计算方法;如果观测指标是非连续数据,需要采用卡方分析等计算方法;如果观测值标是连续数据,则可以采用以下几种算法:如果观测值标是连续数据,则可以采用以下几种算法:(1 1)明氏距离)明氏距离(2 2)马氏距离)马氏距离(3 3)兰氏距离)兰氏距离(4 4)自定义距离)自定义距离第6页,此课件共
5、30页哦2 2相似性系数相似性系数 前面提到,聚类分析不仅可以对样本进行聚类,而且还可以对变量进前面提到,聚类分析不仅可以对样本进行聚类,而且还可以对变量进行聚类,当对变量进行聚类时,考察变量之间关系的指标一般采用相行聚类,当对变量进行聚类时,考察变量之间关系的指标一般采用相似性系数来表示。相似性系数是描述测量指标之间相关程度的指标,似性系数来表示。相似性系数是描述测量指标之间相关程度的指标,取值范围为取值范围为-1,1-1,1,相似系数越大,变量之间的相似性就越高。根,相似系数越大,变量之间的相似性就越高。根据研究目的的不同,有时只需要考察相关系数绝对值的大小,有时据研究目的的不同,有时只需
6、要考察相关系数绝对值的大小,有时还要考虑到相关的方向,即相关系数的正负。聚类时,相似的变量还要考虑到相关的方向,即相关系数的正负。聚类时,相似的变量归入一类,不相似的变量归到不同的类。相似性系数的计算方法常归入一类,不相似的变量归到不同的类。相似性系数的计算方法常见的有积差相关系数和夹角余弦等。见的有积差相关系数和夹角余弦等。积差相关系数:积差相关系数:第7页,此课件共30页哦8.1.3 聚类结果的评价 聚类分析是一个探索性的过程,在使用聚类分析过程中,除了要聚类分析是一个探索性的过程,在使用聚类分析过程中,除了要根据不同的数据类型选择其最适合的聚类方法外,还往往需要结根据不同的数据类型选择其
7、最适合的聚类方法外,还往往需要结合数据结构和对聚类样本或变量的先验经验,并且不断探索和尝合数据结构和对聚类样本或变量的先验经验,并且不断探索和尝试才能得到比较好的聚类结果。这里简要介绍一些判断类别数量试才能得到比较好的聚类结果。这里简要介绍一些判断类别数量是否合理的标准和最终分类是否合理的标准和最终分类应该符合的要求作为参考。应该符合的要求作为参考。1 1规定一个阈值规定一个阈值T T 2 2查看样本的散点图查看样本的散点图3 3使用统计量使用统计量第8页,此课件共30页哦8.2.1 二阶聚类的基本原理顾名思义,二阶聚类是指聚类过程是分为两步进行的,故又顾名思义,二阶聚类是指聚类过程是分为两步
8、进行的,故又称为两步聚类。二阶聚类发展较晚,但由于其能同时处理连称为两步聚类。二阶聚类发展较晚,但由于其能同时处理连续数据和离散数据,同时还可以自动确定最佳聚类个数,加续数据和离散数据,同时还可以自动确定最佳聚类个数,加上处理速度快等优点,使它从一经提出就在多个领域得到推上处理速度快等优点,使它从一经提出就在多个领域得到推广,并受到越来越多用户的青睐。广,并受到越来越多用户的青睐。二阶聚类主要分为以下两个步骤:二阶聚类主要分为以下两个步骤:(1 1)预分类)预分类(2 2)正式聚类)正式聚类第9页,此课件共30页哦8.2.2 二阶聚类的操作过程在在SPSSSPSS中二阶聚类的操作过程如下:中二
9、阶聚类的操作过程如下:(1 1)打开或建立数据文件。)打开或建立数据文件。(2 2)选择)选择“分析分析”“”“分类分类”“”“两步聚类两步聚类”命令,打开命令,打开“二阶聚二阶聚类分析类分析”对话框,如图所示。对话框,如图所示。第10页,此课件共30页哦(3 3)选择变量)选择变量(4 4)选择距离度量标准)选择距离度量标准(5 5)连续变量计数)连续变量计数(6 6)设定聚类数量)设定聚类数量(7 7)选择聚类准则)选择聚类准则(8 8)选项设置)选项设置(9 9)输出设置)输出设置(1010)设置完成后,单击)设置完成后,单击“确定确定”按钮,执行操作,输出结果。按钮,执行操作,输出结果
10、。第11页,此课件共30页哦8.2.3 实例分析:普通高等学校(机构)教职工队伍构成(1)教师队伍的构成影响和制约着高等教育的质量和发展。现准备教师队伍的构成影响和制约着高等教育的质量和发展。现准备根据根据20082008年中国部分省份普通高等学校(机构)教职工队伍年中国部分省份普通高等学校(机构)教职工队伍构成情况对这些地区进行分类。收集到的资料包括:正高级构成情况对这些地区进行分类。收集到的资料包括:正高级职称人数(单位:人)、副高级职称人数、中级职称人数、职称人数(单位:人)、副高级职称人数、中级职称人数、初级职称人数和无职称人数。初级职称人数和无职称人数。1 1操作过程操作过程2 2结
11、果分析结果分析第12页,此课件共30页哦8.3 K-均值聚类分析 K-K-均值聚类(均值聚类(K-Means-ClusterK-Means-Cluster)是一种快速样本聚类方法,在聚)是一种快速样本聚类方法,在聚类个数已知的情况下,特别适合于对大样本数据进行分析。在本节将类个数已知的情况下,特别适合于对大样本数据进行分析。在本节将介绍介绍K-K-均值聚类的基本原理和操作过程。均值聚类的基本原理和操作过程。第13页,此课件共30页哦8.3.1 K-均值聚类的基本原理K-K-均值聚类(均值聚类(K-Means-ClusterK-Means-Cluster)又称快速样本聚类或逐步样)又称快速样本聚
12、类或逐步样本聚类,是先将样本数据进行初始分类,然后根据中心点逐本聚类,是先将样本数据进行初始分类,然后根据中心点逐步调整,直至得到最终分类。这种聚类方法具有计算量大、步调整,直至得到最终分类。这种聚类方法具有计算量大、对系统要求低、占用内存少、处理速度快的特点,因此特别对系统要求低、占用内存少、处理速度快的特点,因此特别适合处理大样本数据。但是这种聚类方法只适于对样本的聚适合处理大样本数据。但是这种聚类方法只适于对样本的聚类,而不能对变量进行聚类。类,而不能对变量进行聚类。K-K-均值聚类分析的基本步骤如均值聚类分析的基本步骤如下:下:(1 1)确定聚类数量。)确定聚类数量。(2 2)确定初始
13、类中心坐标。)确定初始类中心坐标。(3 3)根据距离最近原则进行分类。)根据距离最近原则进行分类。(4 4)重新计算所形成的各个新类别的中心点坐标,并重新归类。)重新计算所形成的各个新类别的中心点坐标,并重新归类。(5 5)重复上一过程,直至达到收敛标准。)重复上一过程,直至达到收敛标准。第14页,此课件共30页哦8.3.2 K-均值聚类的操作过程 前面介绍了前面介绍了K-K-均值聚类分析的基本原理和步骤,在均值聚类分析的基本原理和步骤,在SPSSSPSS中中K-K-均值均值聚类的操作过程如下:聚类的操作过程如下:(1 1)打开或建立数据文件。)打开或建立数据文件。(2 2)选择)选择“分析分
14、析”“”“分类分类”“”“K-K-均值聚类均值聚类”命令,打开命令,打开“K-K-均值聚类均值聚类”对话框,如图所示。对话框,如图所示。第15页,此课件共30页哦(3 3)选择变量)选择变量(4 4)确定聚类数)确定聚类数(5 5)选择聚类方法)选择聚类方法(6 6)设定聚类中心的读取与输出)设定聚类中心的读取与输出(7 7)设定迭代次数)设定迭代次数(8 8)设定输出结果)设定输出结果(9 9)选择统计量指标和缺失值处理)选择统计量指标和缺失值处理(1010)单击)单击“确定确定”按钮,执行操作,输出结果。按钮,执行操作,输出结果。第16页,此课件共30页哦8.3.3 实例分析:不同省份三次
15、产业从业人数 优化产业结构,转变经济增长方式对于国民经济平稳较快发展有优化产业结构,转变经济增长方式对于国民经济平稳较快发展有着重要的意义。为了更好的了解全国不同省份的三次产业结构情着重要的意义。为了更好的了解全国不同省份的三次产业结构情况,国家统计局调查了全国况,国家统计局调查了全国3131个省份个省份20082008的三次产业从业人数情的三次产业从业人数情况。这里摘选了其中部分省份的数据,请问如何通过这些数据对况。这里摘选了其中部分省份的数据,请问如何通过这些数据对各省份三次产业从业人数进行聚类分析?各省份三次产业从业人数进行聚类分析?1 1操作过程操作过程 2 2结果分析结果分析第17页
16、,此课件共30页哦8.4 层次聚类在前面两节的内容中介绍了二阶聚类和在前面两节的内容中介绍了二阶聚类和K-K-均值聚类,这两种聚均值聚类,这两种聚类方法聚类速度快,较适合于样本量较大的数据,但它们也类方法聚类速度快,较适合于样本量较大的数据,但它们也有一些不够完善之处。首先,它们只可以对样本进行聚类,有一些不够完善之处。首先,它们只可以对样本进行聚类,但是无法对变量进行聚类;其次,由于聚类个数往往需要研但是无法对变量进行聚类;其次,由于聚类个数往往需要研究者事先指定(对于究者事先指定(对于K-K-均值聚类必须指定聚类个数),这就需均值聚类必须指定聚类个数),这就需要研究者对研究对象要有一定的先
17、验知识经验和预期,这对新要研究者对研究对象要有一定的先验知识经验和预期,这对新手来说会有一定的困难;最后,在输出结果中它们对样本之间手来说会有一定的困难;最后,在输出结果中它们对样本之间的关系和结构的描述也不够详细和直观。而本节的层次聚类方的关系和结构的描述也不够详细和直观。而本节的层次聚类方法能很好的克服上述两种聚类方法的缺陷。法能很好的克服上述两种聚类方法的缺陷。第18页,此课件共30页哦8.4.1 层次聚类的基本原理 层次聚类又称系统聚类或分层聚类,是一种常用的聚类方法。在层次层次聚类又称系统聚类或分层聚类,是一种常用的聚类方法。在层次聚类中,它既可以对样本进行聚类(即聚类中,它既可以对
18、样本进行聚类(即Q Q型聚类),也可以对变量型聚类),也可以对变量进行聚类(即进行聚类(即R R型聚类);聚类个数也无需事先指定(如果了解型聚类);聚类个数也无需事先指定(如果了解的话也可以指定或者只是指定类别数量范围);在聚类过程中系的话也可以指定或者只是指定类别数量范围);在聚类过程中系统将所有观测指标纳入计算过程,在聚类结果中不仅可以显示不统将所有观测指标纳入计算过程,在聚类结果中不仅可以显示不同样本(或变量)的距离、所属类别,而且还可以根据分类过程同样本(或变量)的距离、所属类别,而且还可以根据分类过程绘制出样本(或变量)的树状谱系关系图,对于确定类别个数有绘制出样本(或变量)的树状谱
19、系关系图,对于确定类别个数有着重要的参考价值。着重要的参考价值。根据聚类过程的不同,层次聚类又可以分为凝聚法和分解法两根据聚类过程的不同,层次聚类又可以分为凝聚法和分解法两种方向相反的聚类方法。种方向相反的聚类方法。第19页,此课件共30页哦8.4.2层次聚类的操作过程在在SPSSSPSS中层次聚类的操作过程如下:中层次聚类的操作过程如下:(1 1)打开或建立数据文件。)打开或建立数据文件。(2 2)选择)选择“分析分析”“”“分类分类”“”“系统聚类系统聚类”命令,打开命令,打开“系统聚系统聚类分析类分析”对话框,如图所示。对话框,如图所示。第20页,此课件共30页哦(3 3)选择变量:从左
20、边变量列表框中选择要进行聚类的变量将其)选择变量:从左边变量列表框中选择要进行聚类的变量将其移入右边移入右边“变量变量”列表框中,同时选择称名变量移入列表框中,同时选择称名变量移入“标注个案标注个案”文本框中。文本框中。(4 4)选择聚类类型:在)选择聚类类型:在“分群分群”选项组中可以选择聚类对象。选项组中可以选择聚类对象。(5 5)设定输出指标:在)设定输出指标:在“输出输出”选项组中选择输出统计量和图形。选项组中选择输出统计量和图形。(6 6)选择基本统计量)选择基本统计量(7 7)选择输出图形)选择输出图形(8 8)选择聚类方法)选择聚类方法(9 9)聚类结果保存)聚类结果保存(101
21、0)设置完成后,单击)设置完成后,单击“确定确定”按钮,执行操作,输出结果。按钮,执行操作,输出结果。第21页,此课件共30页哦8.4.3 实例分析:普通高等学校(机构)教职工队伍构成(2)在此仍采用二阶聚类中使用的在此仍采用二阶聚类中使用的“普通高等学校(机构)教职工队普通高等学校(机构)教职工队伍构成伍构成”案例。案例。1 1操作过程操作过程2 2结果分析结果分析第22页,此课件共30页哦8.5 判别分析 在前面几节中主要介绍的是聚类分析,在根据一定的指标对一组在前面几节中主要介绍的是聚类分析,在根据一定的指标对一组样本进行分类时就可以使用聚类分析。如果已知一组样本总体可样本进行分类时就可
22、以使用聚类分析。如果已知一组样本总体可以分为几类,但仍有一些样本需要明确其类别归属时就需要使用以分为几类,但仍有一些样本需要明确其类别归属时就需要使用本节的判别分析。本节的判别分析。在实际生活中经常会遇到各种各样的类别归属的判断问题。在实际生活中经常会遇到各种各样的类别归属的判断问题。如医生在给病人诊断时,就需要根据病人的各种症状、生化如医生在给病人诊断时,就需要根据病人的各种症状、生化指标、持续时间等方面对病人的疾病类型及严重程度进行判指标、持续时间等方面对病人的疾病类型及严重程度进行判断。同样,在生物学中对新发现物种的归类,在社会学、经断。同样,在生物学中对新发现物种的归类,在社会学、经济
23、学中对社会发展状况、经济形势的判断也都要涉及到本节济学中对社会发展状况、经济形势的判断也都要涉及到本节要学习的判别分析。要学习的判别分析。第23页,此课件共30页哦8.5.1 判别分析简介 判别分析(判别分析(Discriminant AnalysisDiscriminant Analysis)是多元统计分析中判断样)是多元统计分析中判断样品所属类别的一种重要的统计方法,它最早是由费希尔品所属类别的一种重要的统计方法,它最早是由费希尔 (R.(R.A.Fisher)1936 A.Fisher)1936 年在生物学的植物分类问题中提出来的,但年在生物学的植物分类问题中提出来的,但当初只是作为一种
24、分类方法而缺少数学上的理论依据,后来出当初只是作为一种分类方法而缺少数学上的理论依据,后来出现的贝叶斯(现的贝叶斯(BayesBayes)判别证明了费希尔判别的合理性,因此)判别证明了费希尔判别的合理性,因此一般将这两种判别分析合称为一般将这两种判别分析合称为FisherFisher判别分析。判别分析。第24页,此课件共30页哦1 1判别分析的基本原理判别分析的基本原理判别分析是在类别数确定的情况下,根据某一研究对象的各判别分析是在类别数确定的情况下,根据某一研究对象的各种特征判断其类别归属的一种多变量统计分析方法。判别分种特征判断其类别归属的一种多变量统计分析方法。判别分析的方法很多,根据判
25、别的组数来区分,有两组判别分析和析的方法很多,根据判别的组数来区分,有两组判别分析和多组判别分析;根据区分不同总体所用数学模型的不同,有多组判别分析;根据区分不同总体所用数学模型的不同,有线性判别和非线性判别;线性判别和非线性判别;根据判别时变量处理方法的不同,有逐根据判别时变量处理方法的不同,有逐步判别和序贯判别等。步判别和序贯判别等。第25页,此课件共30页哦2 2判别分析的适用条件判别分析的适用条件任何一种统计方法在满足其适用条件的前提下才可能得到理想的结任何一种统计方法在满足其适用条件的前提下才可能得到理想的结果和解释。建立理想的判别分析模型需要满足以下前提假设:果和解释。建立理想的判
26、别分析模型需要满足以下前提假设:(1 1)自变量服从多元正态分布且彼此之间不存在多重共线性。)自变量服从多元正态分布且彼此之间不存在多重共线性。(2 2)所有自变量在各组之间方差齐性,协方差矩阵也相等。)所有自变量在各组之间方差齐性,协方差矩阵也相等。(3 3)因变量的取值事先是确定的且独立。)因变量的取值事先是确定的且独立。(4 4)自变量与因变量间关系符合线性假设。)自变量与因变量间关系符合线性假设。第26页,此课件共30页哦8.5.2 判别分析的操作过程 在在SPSSSPSS中判别分析的操作过程如下:中判别分析的操作过程如下:(1 1)打开或建立数据文件。)打开或建立数据文件。(2 2)
27、选择)选择“分析分析”“”“分类分类”“”“判别判别”命令,打开命令,打开“判别分判别分析析”对话框,如图所示。对话框,如图所示。第27页,此课件共30页哦(3 3)选择变量)选择变量(4 4)选择判别分析方法)选择判别分析方法(5 5)选择基本统计量)选择基本统计量(6 6)选择判别方法)选择判别方法(7 7)选择分类)选择分类(8 8)结果保存)结果保存(9 9)设置完成后,单击)设置完成后,单击“确定确定”按钮,执行操作,输出结果。按钮,执行操作,输出结果。第28页,此课件共30页哦8.4.3 实例分析:地区职工平均工资水平 不同地区工资水平会存在一定的差异,在不同地区工资水平会存在一定
28、的差异,在20042004年全国不同地区职年全国不同地区职工平均工资调查中选取国有单位、城镇集体单位及其他单位作工平均工资调查中选取国有单位、城镇集体单位及其他单位作为指标,通过对部分数据进行聚类分析总体上确立了两个类别,为指标,通过对部分数据进行聚类分析总体上确立了两个类别,分别为第一、第二组。另外有分别为第一、第二组。另外有4 4个地区属于待判别个案,请根个地区属于待判别个案,请根据下面数据对这据下面数据对这4 4个地区进行判别分析以确定其所属类别。个地区进行判别分析以确定其所属类别。1 1操作过程操作过程 2 2结果分析结果分析第29页,此课件共30页哦8.5 习题第30页,此课件共30页哦