《spss的聚类分析.ppt》由会员分享,可在线阅读,更多相关《spss的聚类分析.ppt(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第六章第六章 聚类分析聚类分析 把对象分类把对象分类11分类分类u俗语说,物以类聚、人以群分。俗语说,物以类聚、人以群分。u当有一个分类指标时,分类比较容易。当有一个分类指标时,分类比较容易。u但是当有多个指标,要进行分类就不是很容但是当有多个指标,要进行分类就不是很容易了。易了。u比如,要想把中国的县分成若干类,可以比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、按照自然条件来分:考虑降水、土地、日照、湿度等各方面;湿度等各方面;u也可以考虑收入、教育水准、医疗条件、也可以考虑收入、教育水准、医疗条件、基础设施等指标;基础设施等指标;聚类分析聚类分析u由于不同的指
2、标项对重要程度或依赖关系是由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。为这样会忽视相对重要程度的问题。u所以需要进行多元分类,即聚类分析。所以需要进行多元分类,即聚类分析。u最早的聚类分析是由考古学家在对考古分类最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等分类中,此后又广泛地应用在天气、生物等方面。方面。聚类分析聚类分析u对于一批数据,人们既可以对变量(指标)对于一批数据,人们既可以对变
3、量(指标)进行分类进行分类(相当于对数据中的列分类相当于对数据中的列分类),也可以,也可以对观测值(事件,样品)来分类(相当于对数对观测值(事件,样品)来分类(相当于对数据中的行分类)。据中的行分类)。u对对变变量量的的聚聚类类称称为为R R型型聚聚类类,而而对对观观测测值值聚聚类类称称为为Q Q型型聚聚类类。这这两两种种聚聚类类在在数数学学上上是是对对称称的的,没有什么不同。没有什么不同。如何聚类?u聚类分析就是要找出具有相近程度的点或类聚类分析就是要找出具有相近程度的点或类聚为一类;聚为一类;u如何衡量这个如何衡量这个“相近程度相近程度”?就是要根据?就是要根据“距离距离”来确定。来确定。
4、u这这里里的的距距离离含含义义很很广广,凡凡是是满满足足4个个条条件件(后后面面讲讲)的的都都是是距距离离,如如欧欧氏氏距距离离、马马氏氏距距离离,相似系数也可看作为距离。,相似系数也可看作为距离。距离和相似系数距离u什么是距离?什么是距离?u首先我们看首先我们看 样本数据样本数据:u一般满足以下四个条件时,就称为距离:一般满足以下四个条件时,就称为距离:常用距离明氏距离uMinkowski距离:距离:u当当q=1时:时:u当当q=2时:时:u当当q=时时改进:1 1)各指标测量值相差悬殊时,数据标准化处理后再计算距离)各指标测量值相差悬殊时,数据标准化处理后再计算距离 xij0时,时,Lan
5、ce Williams距离距离 2 2)马氏距离)马氏距离明氏距离的缺点:1 1)距离大小与各指标的观测单位有关)距离大小与各指标的观测单位有关 2 2)没有考虑指标间的相关性)没有考虑指标间的相关性分类变量距离测度分类变量距离测度u简单匹配系数简单匹配系数:是测度二分类变量的,是度:是测度二分类变量的,是度量两个案例在所有的聚类变量上答案相同的情量两个案例在所有的聚类变量上答案相同的情况出现的频率。况出现的频率。个体j个体i 1 01 a b0 c d a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化
6、不会引起系数的变化。例例姓名 授课方式 上机时间 选某门课程张三 1 1 1 李四 1 1 0王五 0 0 1(张三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3张三距李四近关联测度关联测度u雅雅科科比比系系数数:是是在在简简单单匹匹配配系系数数基基础础上上进进行行的改进,也是度量二分类变量的。的改进,也是度量二分类变量的。个体j个体i 1 01 a b0 c d a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时不拥有某特征的情况;取1的状态比取0更
7、有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化分类变量距离测度分类变量距离测度姓名 授课方式 上机时间 选某门课程张三 1(0)1(0)1(0)李四 1(0)1(0)0(1)王五 0(1)0(1)1(0)(张三,李四)1:a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(张三,李四)2:a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3(相同)(张三,李四)1:a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3(张三,李四)2:a=0 b=0 c=1 d=2 J(x,y)=1/1=1(不相同)相似系数u夹角余弦cosine
8、u尽管图中AB和CD长度不一样,但形状相似。当长度不是主要矛盾时,就可利用夹角余弦这样的相似系数。相似系数u相关系数相关系数 u也可用相关系数来刻画样品之间的相似关系。u把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。系统聚类法系统聚类法的步骤可可选择适当的距离,适当的距离,计算距离算距离把每个把每个样品看成一品看成一类,构造,构造n个个类合并最近的两合并最近的两类为一新一新类计算新算新类与当前各与当前各类的距离的距离判断判断画聚画聚类图根据根据实际情况,确定情况,确定类和和类的个数的个数仅有一个有一个类不是不是仅有一个有一个类采用系采用系统聚聚类法法系统聚类法u最短距离法最短距离法N
9、earest Neighbor G1 G2 G3 G4 G5G1 G2 G3 G4 G50 1 0 2.5 1.5 0 6 5 3.5 0 8 7 5.5 2 0G6 G3 G4 G5G6 G3 G4 G50 1.5 0 5 3.5 0 7 3.5 3.5 0 系统聚类法u最长距离法最长距离法Furthest NeighborG1 G2 G3 G4 G5G1 G2 G3 G4 G50 1 0 2.5 1.5 0 6 5 3.5 0 8 7 5.5 2 0G6 G3 G4 G5G6 G3 G4 G50 2.5 0 6 3.5 0 8 3.5 3.5 0 系统聚类法u重心法重心法Centroid
10、Clustering u类平均法类平均法Between-groups Linkage系统聚类法u离差平方和法离差平方和法Words Method它的思想来源于方差分析它的思想来源于方差分析 此外,还有中间距离法、类内平均法等。此外,还有中间距离法、类内平均法等。SPSS中的聚类分析与过程例例9.1 9.1 饮料数据(饮料数据(drink.savdrink.sav )1616种饮料的热量、咖啡因、钠及价格四种变量种饮料的热量、咖啡因、钠及价格四种变量 SPSS中的聚类分析uSpss中的聚类功能常用的有两种:中的聚类功能常用的有两种:u快速聚类(迭代过程):快速聚类(迭代过程):K-Means C
11、luster u分层聚类:分层聚类:HierarchicalK-Means Cluster原理原理u首先首先,选择,选择n个数值型变量参与聚类分析,最后要求个数值型变量参与聚类分析,最后要求的的聚类数为聚类数为k个个;u其次其次,由系统选择由系统选择k个个(聚类的类数)聚类的类数)观测量观测量(也可(也可由用户指定)由用户指定)作为聚类的种子作为聚类的种子。u第三第三,按照距离这些类中心的,按照距离这些类中心的距离最小的原则距离最小的原则把所把所有观测量(样品)分派到各类重心所在的类中去。有观测量(样品)分派到各类重心所在的类中去。u第四第四,这样每类中可能由若干个样品,计算每个类,这样每类中
12、可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心;中各个变量的均值,以此作为第二次迭代的中心;u第第五五,然然后后根根据据这这个个中中心心重重复复第第三三、第第四四步步,直直到到中中心的迭代标准达到要求时,聚类过程结束。心的迭代标准达到要求时,聚类过程结束。K-Means Cluster聚类过程聚类过程u由由AnalyzeClassify K-Means Cluster u将各变量放入将各变量放入Variable;u输入最后聚类的个数;输入最后聚类的个数;Hierarchical Cluster聚类聚类u分层聚类由两种方法:分解法和凝聚法。分层聚类由两种方法:分解法和凝聚
13、法。u分层聚类的功能:既可进行样品的聚类,也分层聚类的功能:既可进行样品的聚类,也可进行变量的聚类。可进行变量的聚类。u分层聚类的原理:即我们前面介绍过的系统分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。聚类方法的原理和过程。Hierarchical Cluster聚类聚类u分层聚类的中要进行以下的选择:分层聚类的中要进行以下的选择:u数据的标准化数据的标准化 u测度方法的选择测度方法的选择:距离方法的选择或相似性、:距离方法的选择或相似性、关联程度的选择。关联程度的选择。u聚类方法的选择聚类方法的选择:即以什么方法聚类,:即以什么方法聚类,spss中提供了中提供了7中方法可进行
14、选择。中方法可进行选择。u输出图形的选择:树形图或冰柱图。输出图形的选择:树形图或冰柱图。欧氏平方距离、欧氏平方距离、类平均法聚平均法聚类快速聚快速聚类法聚法聚类欧氏平方距离、最短距离法聚欧氏平方距离、最短距离法聚类欧氏平方距离、最欧氏平方距离、最长距离法聚距离法聚类欧氏平方距离、重心法聚欧氏平方距离、重心法聚类欧氏平方距离、欧氏平方距离、Words法聚法聚类聚类方法的优缺点聚类方法的优缺点u类平均法比较好类平均法比较好 u因为与类平均法相比,最短和重心法是因为与类平均法相比,最短和重心法是“空间浓缩空间浓缩”,即并类的距离范围小,区别类,即并类的距离范围小,区别类的灵敏度差;的灵敏度差;u与
15、类平均法相比,其他方法是与类平均法相比,其他方法是“空间扩张空间扩张”,即并类距离范围大,区别类的灵敏度强。,即并类距离范围大,区别类的灵敏度强。聚类方法的优缺点聚类方法的优缺点u最短距离比最长距离法好最短距离比最长距离法好 u聚类结果中,如果孤类点太多,则说明该种聚类结果中,如果孤类点太多,则说明该种聚类方法不好。聚类方法不好。u如如果果从从减减少少孤孤类类来来看看,一一般般情情况况下下用用Words方法最好。方法最好。快速聚类法与层次聚类法应用区别快速聚类法与层次聚类法应用区别u层次聚类法的聚类过程是单方向的,一旦层次聚类法的聚类过程是单方向的,一旦某个样品(某个样品(case)进入某一类
16、,就不可能从)进入某一类,就不可能从该类出来,再归入其他的类。该类出来,再归入其他的类。u而而快快速速聚聚类类法法受受奇奇异异值值、相相似似测测度度和和不不合合适适的的聚聚类类变变量量的的影影响响较较小小,对对于于不不合合适适的的初初始分类可以进行反复调整始分类可以进行反复调整.快速聚类法与层次聚类法应用区别快速聚类法与层次聚类法应用区别u在聚类分析发展的早期,层次聚类法应用普在聚类分析发展的早期,层次聚类法应用普遍,其中尤以组间类平均法和离差平方和法应遍,其中尤以组间类平均法和离差平方和法应用最广。用最广。u后来快速聚类方法逐步被人们接受,应用日后来快速聚类方法逐步被人们接受,应用日益增多。现在是两者相结合,取长补短。益增多。现在是两者相结合,取长补短。u首首先先使使用用层层次次聚聚类类法法确确定定分分类类数数,检检查查是是否否有有奇奇异异值值,去去除除奇奇异异值值后后,对对剩剩下下的的案案例例重重新新进进行行分分类类,把把用用层层次次聚聚类类法法得得到到的的各各个个类类的的重重心心,作作为为迭迭代代法法的的初初始始分分类类中中心心,对对样样本本进进行行重新调整。重新调整。