《SPSS聚类分析具体操作步骤.pptx》由会员分享,可在线阅读,更多相关《SPSS聚类分析具体操作步骤.pptx(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、会计学1SPSS聚类分析具体聚类分析具体(jt)操作步骤操作步骤第一页,共20页。n n俗语说,物以类聚、人以群分。n n但什么是分类的根据呢?n n举例:要想把中国的县分成若干类,就有很多种分类法;n n可以按照自然条件来分,n n比如考虑降水(jingshu)、土地、日照、湿度等各方面;n n也可以考虑收入、教育水准、医疗条件、基础设施等指标;n n既可以用某一项来分类,也可以同时考虑多项指标来分类。第1页/共20页第二页,共20页。聚类分析概述聚类分析概述(i sh)(i sh)(一一)概念概念(1)(1)聚类分析是统计学中研究聚类分析是统计学中研究“物以类聚物以类聚”的的一种方法一种方
2、法(fngf),(fngf),属多元统计分析方法属多元统计分析方法(fngf).(fngf).例如:细分市场、消费行为划分例如:细分市场、消费行为划分聚类分析是建立一种分类,是将一批样本聚类分析是建立一种分类,是将一批样本(或或变量变量)按照在性质上的按照在性质上的“亲疏亲疏”程度程度,在没在没有先验知识的情况下自动进行分类的方法有先验知识的情况下自动进行分类的方法(fngf).(fngf).其中其中:类内个体具有较高的相似类内个体具有较高的相似性性,类间的差异性较大类间的差异性较大.第2页/共20页第三页,共20页。(二二)“)“亲疏亲疏”程度的衡量程度的衡量(1)(1)衡量指标衡量指标相似
3、性相似性:数据间相似程度的度量数据间相似程度的度量距离距离:数据间差异程度的度量数据间差异程度的度量.距离越近距离越近,越越“亲密亲密”,”,聚成一类聚成一类;距离越远距离越远,越越“疏远疏远”,”,分别属于分别属于(shy)(shy)不同的类不同的类(2)(2)衡量对象衡量对象个体间距离个体间距离个体和小类间、小类和小类间的距离个体和小类间、小类和小类间的距离第3页/共20页第四页,共20页。两个两个(lin)距离概念距离概念n n按按照照远远近近程程度度来来聚聚类类需需要要明明确确两两个个概概念念:一一个个是是点点和和点点之之间间的的距距离离,一一个个是是类类和和类之间的距离。类之间的距离
4、。n n点间距离有很多定义方式。最简单的是欧式距离,还有其他的距离。点间距离有很多定义方式。最简单的是欧式距离,还有其他的距离。n n当当然然还还有有一一些些和和距距离离相相反反但但起起同同样样作作用用的的概概念念,比比如如相相似似性性等等,两两点点越越相相似似度度越越大,就相当于距离越短。大,就相当于距离越短。n n由由一一个个点点组组成成的的类类是是最最基基本本的的类类;如如果果每每一一类类都都由由一一个个点点组组成成,那那么么点点间间的的距距离离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,n n类类间
5、间距距离离是是基基于于点点间间距距离离定定义义的的:比比如如两两类类之之间间最最近近点点之之间间的的距距离离可可以以作作为为这这两两类类之之间间的的距距离离,也也可可以以用用两两类类中中最最远远点点之之间间的的距距离离作作为为这这两两类类之之间间的的距距离离;当当然然也也可可以以用用各各类类的的中中心心之之间间的的距距离离来来作作为为类类间间距距离离。在在计计算算时时,各各种种点点间间距距离离和和类类间间距距离离的的选选择择是是通通过过统统计计软软件件(ru(ru n n jin)jin)的的选选项项实实现现的的。不不同同的的选选择择的的结结果果会会不不同同,但一般不会差太多。但一般不会差太多
6、。第4页/共20页第五页,共20页。SPSS中聚类分析分类中聚类分析分类(fn li)(一)按分类对象 对变量的聚类称为R型聚类 对观测值聚类称为Q型聚类 这两种聚类在数学上是对称的,没有什么不同。(二)按聚类的方法(fngf)分类 分层聚类或系统聚类分析 快速聚类分析 两步聚类分析:新型的第5页/共20页第六页,共20页。事先不用确定事先不用确定(qudng)分多少类:分层聚类分多少类:分层聚类分层聚类或系统聚类(hierarchical cluster)。开始时,有多少点就是多少类。它第一步先把最近的两类(点)合并成一类,然后再把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后
7、只有一大类为止。显然,越是后来(huli)合并的类,距离就越远。再对饮料例子来实施分层聚类。第6页/共20页第七页,共20页。n n对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件(shjin),样品)来分类(相当于对数据中的行分类)。n n比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,n n当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。第7页/共20页第八页,共20页。快速快速(kui s)聚类聚类n nk-k-均均值值聚聚类类(k-means k-means clustercluster,也也叫
8、叫快快速速聚聚类类,quick quick clustercluster)却却要要求求你你先先说说好好要要分分多多少少类类。看看起来有些主观起来有些主观n n假假定定你你说说分分3 3类类,这这个个方方法法还还进进一一步步要要求求你你事事先先确确定定3 3个个点点为为“聚聚类类种种子子”(SPSS”(SPSS软软件件自自动动(zdng)(zdng)为你选种子为你选种子);也就是说,把这;也就是说,把这3 3个点作为三类中每一类的基石。个点作为三类中每一类的基石。n n然然后后,根根据据和和这这三三个个点点的的距距离离远远近近,把把所所有有点点分分成成三三类类。再再把把这这三三类类的的中中心心(
9、均均值值)作作为为新新的基石或种子(原来的的基石或种子(原来的“种子种子”就没用了),重新按照距离分类。就没用了),重新按照距离分类。n n如此叠代下去,直到达到停止叠代的要求如此叠代下去,直到达到停止叠代的要求.n n适合处理大样本数据。适合处理大样本数据。第8页/共20页第九页,共20页。n n特点n n聚类分析前所有个体所属的类别是未知的,类别个数一般也是未知的,分析的依据只有原始数据,可能事先没有任何有关(yugun)类别的信息可参考n n严格地,聚类分析并不是纯粹的统计技术,不象其他多元分析,需要从样本去推断总体n n一般不涉及统计量分布,也不需显著性检验n n聚类分析更象是一种建立
10、假设的方法,而对相关假设的检验还需要借助其他统计方法第9页/共20页第十页,共20页。n n注意n n聚类分析主要用于探索性研究(ynji),其分析结果可提供多个可能的解,最终解的选择需要研究(ynji)者的主观判断和后续分析n n聚类分析的解完全依赖于研究(ynji)者所选择的聚类变量,增加或删除一些变量对最终解都可能产生实质性的影响n n不管实际数据中是否存在不同的类别,利用聚类分析都能得到分成若干类别的解第10页/共20页第十一页,共20页。下面(xi mian)以对观测值聚类即Q型聚类为例演示用spss进行聚类分析的具体步骤:对一个班的数学水平进行聚类第11页/共20页第十二页,共20
11、页。n nQ型聚类,对样本(yngbn)也就是观察个案的聚类第12页/共20页第十三页,共20页。单击单击单击单击“方法方法方法方法(fngf(fngf)”)”按钮弹出对话框按钮弹出对话框按钮弹出对话框按钮弹出对话框n n下拉框指定的是小类之间的距离计算方法7种供用户(yngh)选择第13页/共20页第十四页,共20页。n n度量标准n n计算(j sun)样本距离的方法第14页/共20页第十五页,共20页。点击点击“继续继续(jx)”接下来指定接下来指定SPSS分析图形输出分析图形输出属性图以树的形式展现聚类分析的每一次合并过程。冰柱图通过表格中的冰柱显示。可以指定并主图的输出(shch)方向,纵向和横向第15页/共20页第十六页,共20页。显示显示(xinsh)凝聚状态表,单凝聚状态表,单击击“统计量统计量”第16页/共20页第十七页,共20页。n n单一方案:输入一个具体数值n,n小于样本(yngbn)总数,表示仅显示聚类成n类时,个各类的成员构成n n方案范围:指定显示聚成n1类到n2类时,个各类的成员构成。第17页/共20页第十八页,共20页。设定保存层次设定保存层次(cngc)聚类分析聚类分析的结果的结果n n无,是指不保存(bocn)到编辑窗口中。第18页/共20页第十九页,共20页。n n结果(ji gu)与讨论第19页/共20页第二十页,共20页。