《聚类分析在中的实现精选文档.ppt》由会员分享,可在线阅读,更多相关《聚类分析在中的实现精选文档.ppt(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、聚类分析在中的实现本讲稿第一页,共三十二页主要内容主要内容 一、概述一、概述二二、聚类分析的主要方法、聚类分析的主要方法三三、聚类分析的统计量、聚类分析的统计量四四、SASSAS解决方案解决方案本讲稿第二页,共三十二页概述概述v定义 聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。本讲稿第三页,共三十二页v基本思想 样本(或变量)间存在着相似性,根据多个观测指标,找出能度量样本之间相似程度的统计量,以其为依据,把相似程度较大的样本聚合
2、为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。v聚类原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。本讲稿第四页,共三十二页v基本程序 是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。v具体进行聚类时,由于目的、要求不同,因而产生各种不同的聚类方法:n由小类合并到大类的方法n由大类分解为小类的方法n静态聚类法、动态聚类法n按样本聚类(Q)、按指标聚类(R)本讲稿第五页,共三十二页v举例 对上市公司的经
3、营业绩进行分类;据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。又例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。本讲稿第六页,共三十二页v按照聚类分析分组依据的原则不同分组v按照聚类分析的对象不同分组聚类分析主要方法聚类分析主要方法系统聚类分析法动态聚类分析法模糊聚类法图论聚类法聚类预报法Q型聚类分析法R型聚类分析法本讲稿第七页,共三十二页v系统聚类分析法 在样品距离的基础上定义类与类的距离,首先将各个样品自成一类,然后每次将具有最小距离的两个类合
4、并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。这种聚类方法称为系统聚类法。根据并类过程所做的样品聚类过程图称为聚类谱系图。本讲稿第八页,共三十二页v动态聚类分析法 将个样品初步分类,然后根据分类函数尽可能小的原则,对初步分类进行调整优化,直到分类合理为止。这种分类方法一般称为动态聚类法,也称为调优法。v模糊聚类分析法 利用模糊数学中模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。本讲稿第九页,共三十二页v图论聚类法 利用图论中最小支撑树(MST)的概念来处理分类问题,是一种独具风格的方法。v聚类预报法 利用
5、聚类方法处理预报问题,主要是处理一些异常数据,如气象中的灾害性天气的预报,这些异常数据采用回归分析或判别分析处理的效果不好,而聚类预报可以弥补回归分析及判别分析方法之不足,是一个很值得重视的方法。本讲稿第十页,共三十二页vQ型聚类分析法 对样本进行分类,是具有共同特点的样本聚在一起,以便对不同类的样本进行分析。v作用 综合利用多个变量对样品进行分类;分类结果直观,聚类谱系图清晰;聚类结果细致、全面、合理。本讲稿第十一页,共三十二页vR型聚类分析法 对变量进行的分类处理。v作用 了解变量之间,以及变量组合之间的亲疏程度;根据变量分类的结果,可以选择最佳的变量组合进行回归分析或者Q型聚类分析。选择
6、最佳变量,即在聚合的每类变量中选出一个具有代表性的变量作为典型变量。本讲稿第十二页,共三十二页vQ型聚类的统计量 对样品进行分类时,通常采用距离来表示样品之间的亲疏程度。v常用的距离有:(1)明氏距离(明科夫斯基Minkowski)(2)兰氏距离(Lance和Williams)(3)马氏距离(Mahalanobis)(4)斜交空间距离聚类分析的统计量聚类分析的统计量本讲稿第十三页,共三十二页vR型聚类的统计量 对变量进行聚分类析时,通常采用相似系数来表示变量之间的亲疏程度。v常用的相似系数有:(1)夹角余弦(2)相关系数(3)指数相似系数(4)非参数方法本讲稿第十四页,共三十二页SASSAS解
7、决方案解决方案CLUSTER 过程FASTCLUS 过程ACECLUS 过程VARCLUS 过程TREE语句格式本讲稿第十五页,共三十二页CLUSTER语句格式数据若为原始数值形式,数据若为原始数值形式,CLUSTER过程以欧式距过程以欧式距离为默认的距离计算方法。离为默认的距离计算方法。PROC CLUSTER METHOD=name;BY variables;COPY variable;ID variable;RMSSTD variable;VAR variables;RUN;例题1本讲稿第十六页,共三十二页vv在在CLUSTER语句的语句的“METHOD=”关键字下,可以指定关键字下,可
8、以指定11种系统聚类方法。种系统聚类方法。AVERAGE:AVERAGE:类平均法类平均法 CENTROIDCENTROID:重心法重心法 COMPLETE:最长距离法最长距离法 DENSITYDENSITY:密度估计法密度估计法 EMLEML:最大似然谱系聚类最大似然谱系聚类 FLEXIBLE:可变类平均法可变类平均法 MCQUITTYMCQUITTY:可变法及McQuittyMcQuitty相似分析法 MEDIAN:中间距离法中间距离法 SINGLESINGLE:最短距离法最短距离法 TWOSTAGETWOSTAGE:两阶段密度估计法两阶段密度估计法 WARDWARD:离差平方和法离差平方
9、和法 本讲稿第十七页,共三十二页FASTCLUS语句格式研研究事先知道类别的个数,但不知道这些类别当中的具体研研究事先知道类别的个数,但不知道这些类别当中的具体样本,这时采用快速聚类方法。默认情况下,样本,这时采用快速聚类方法。默认情况下,fastclusfastclus过程以过程以欧式距离作为分类的判断标准。欧式距离作为分类的判断标准。PROC FASTCLUS MAXCLUSTERS=n|RADIUS=t;VAR variables;ID variable;FREQ variable;WEIGHT variable;BY variables;RUN;例题2本讲稿第十八页,共三十二页例题1v
10、数据集drink收集了16种饮料的热量、咖啡因、钠及价格四种变量的值。现在希望利用这四个变量对这些饮料品牌进行聚类。本讲稿第十九页,共三十二页例题1【SAS程序】proc cluster data=sasuser.drink method=ward;var calorie caffeine sodium price;proc tree;run;本讲稿第二十页,共三十二页树形图本讲稿第二十一页,共三十二页本讲稿第二十二页,共三十二页例题2v假如我们要对游泳运动员进行分项训练,对10名运动员的三项测试数据记录如下。其中变量xl肩宽髋宽100;x2胸厚胸围100;x3腿长身长100。按泳姿(蝶泳、仰
11、泳、蛙泳、自由泳)对运动员进行聚类。No.12345678910 x1125121120124122120121122122121x220181720181917191719x344434245434441434245【SAS程序】proc fastclus data=sasuser.athlete maxc=4 list Outtree=tree;var x1-x3;proc print data=tree;run;本讲稿第二十三页,共三十二页本讲稿第二十四页,共三十二页ACECLUS语句格式vACECLUS 过程假设各类别为多元正态分布且协方差阵相等,多用于 对大型数据聚类分析的预分析。v
12、ACECLUS 过程的语句格式:vPROC ACECLUS PROPOTION=p|THRESHOLD=t;vBY variables;vFREQ variable;vVAR variables;vWEIGHT variable;vRUN;本讲稿第二十五页,共三十二页VARCLUS语句格式v对变量作谱系聚类或分离聚类,即R聚类。vPROC VARCLUS;vVAR variables;vSEED variables;vPARTIAL variables;vWEIGHT variables;vFREQ variables;vBY variables;vRUN;本讲稿第二十六页,共三十二页TREE
13、语句格式vTREE 过程将cluster过程和varclus过程输出的特定数据集作为输入数据集,绘制出详细的用于描述整个聚类过程的树状图。vPROC TREE;vNAME variables;vHEIGHT variables;vPARENT variables;vBY variables;vCOPY variables;vFREQ variable;vID variable;vRUN本讲稿第二十七页,共三十二页v例:100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。mathphyschemliterathistoryenglish6561728481797777766470556763496567578069757474637470808481747884756271646671675265577771577286718310079416750本讲稿第二十八页,共三十二页v【SAS程序】vProc Varclus DATA=sasuser.kejian Outtree=tree1;vvar math phys chem literat history english;vProc Tree data=tree1;vRun;本讲稿第二十九页,共三十二页本讲稿第三十页,共三十二页本讲稿第三十一页,共三十二页THANK YOU!本讲稿第三十二页,共三十二页