《聚类分析 Cluster Analysis.ppt》由会员分享,可在线阅读,更多相关《聚类分析 Cluster Analysis.ppt(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 毛本清 2010.08.27聚类分析聚类分析Cluster Analysis 毛本清 2010.08.27内容提要内容提要l聚类分析简介l聚类分析有关统计量l分层聚类法步骤lK均值聚类法步骤l两步聚类法步骤l案例分析 毛本清 2010.08.27聚类分析的定义l依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。l各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。l各指标之间具有一定的相关关系。l l聚类分析聚类分析聚类分析聚类分析(cluster analysis)(cluster analysis)是一组将研究对象分是一组将研究对象分是
2、一组将研究对象分是一组将研究对象分为相对同质的群组为相对同质的群组为相对同质的群组为相对同质的群组(clusters)(clusters)的统计分析技术。的统计分析技术。的统计分析技术。的统计分析技术。聚类分析也叫分类分析聚类分析也叫分类分析聚类分析也叫分类分析聚类分析也叫分类分析(classification analysis)(classification analysis)或数值分类或数值分类或数值分类或数值分类(numerical taxonomy)(numerical taxonomy)l变量类型:定类变量、定量(离散和连续)变量 毛本清 2010.08.27聚类方法聚类方法l层次聚
3、类(Hierarchical Clustering)合并法分解法树状图l非层次聚类K均值聚类法(K-means Clustering)l智能聚类法 毛本清 2010.08.27聚类分析的有关统计量l l聚合过程表聚合过程表l l群重心群重心l l群中心群中心l l群间距离群间距离 毛本清 2010.08.27分层聚类分析的步骤l l定义问题与选择分类变量定义问题与选择分类变量 l l聚类方法聚类方法l l确定群组数目确定群组数目l l聚类结果评估聚类结果评估l l结果的描述、解释结果的描述、解释 毛本清 2010.08.27K-means Cluster(快速样品聚类)过程l属于非层次聚类法的
4、一种 l方法原理选择(或人为指定)某些记录作为凝聚点按就近原则将其余记录向凝聚点凝集计算出各个初始分类的中心位置(均值)用计算出的中心位置重新进行聚类如此反复循环,直到凝聚点位置收敛为止 毛本清 2010.08.27K-means Cluster过程l方法特点要求已知类别数可人为指定初始位置节省运算时间样本量大于100时有必要考虑只能使用连续性变量 毛本清 2010.08.27K均值聚类法分析步骤l l定义问题定义问题l l确定群组数目确定群组数目l l结果的描述、解释结果的描述、解释 毛本清 2010.08.27TwoStep Cluster过程l特点:处理对象:分类变量和连续变量自动决定最
5、佳分类数快速处理大数据集l前提假设:变量间彼此独立分类变量服从多项分布,连续变量服从正态分布模型稳健l算法原理:第一步:逐个扫描样本,每个样本依据其与已扫描过的样本的距离,被归为以前的类,或生成一个新类第二步,对第一步中各类依据类间距离进行合并,按一定的标准,停止合并 毛本清 2010.08.27判别分析判别分析 DiscriminantDiscriminant Analysis Analysis介绍:判别分析 分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。毛本清 2010.08.27判别分析判别分析DADAl
6、概述lDA模型lDA有关的统计量l两组DAl案例分析 毛本清 2010.08.27判别分析判别分析l判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。核心是考察类别之间的差异。毛本清 2010.08.27l不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类。lDA适用于定类变量(因)、任意变量(自)l两类:一个判别函数;l多组:一个以上判别函数判别分析判别分析 毛本清 2010.08.27DADA目的目的建立判别函数 检查不同组之间在有关预测变量方面是否有显著差异 决定哪
7、个预测变量对组间差异的贡献最大 根据预测变量对个体进行分类 毛本清 2010.08.27二、判别分析模型二、判别分析模型l要先建立判别函数 Y=a1x1+a2x2+.anxn,其中:Y为判别分数(判别值),x1 x2.xn为反映研究对象特征的变量,a1 a2.an为系数 毛本清 2010.08.27三、有关统计量三、有关统计量判别系数判别系数标准化判别系数标准化判别系数结构相关系数结构相关系数 毛本清 2010.08.27三、有关统计量三、有关统计量典型相关系数典型相关系数特征值特征值WilksWilks (0,1)=(0,1)=SSw/SStSSw/SSt for X for X组重心组重心
8、分类矩阵分类矩阵 毛本清 2010.08.27四、两组判别四、两组判别l定义问题l估计DA函数系数l确定DA函数的显著性l解释结果l评估有效性 毛本清 2010.08.27定义问题定义问题l判别分析的第一步判别分析的第一步l第二步就是将样本分为:第二步就是将样本分为:分析样本分析样本验证样本验证样本 毛本清 2010.08.27估算判别函数系数估算判别函数系数 l直接法(direct method)就是同时用所有的预测变量估计判别函数,此时每个自变量都包括在内,而不考虑其判别能力。这种方法适用于前期研究或理论模型显示应包括哪些自变量的情况。l逐步判别分析(stepwise discrimina
9、nt analysis),预测变量依据其对组别的判别能力被逐步引入。毛本清 2010.08.27确定显著性确定显著性l零假设:总体中各组所有判别函数的均值相等。l特征值l典型相关系数l lWilks(0,1)转换成卡方值检验l l见travel.spo 毛本清 2010.08.27解释结果解释结果l l系数的系数的符号符号无关紧要,但能够表示每个变量对判无关紧要,但能够表示每个变量对判别函数值的影响,以及与特定组的联系。别函数值的影响,以及与特定组的联系。l l我们可以通过我们可以通过标准化判别函数系数标准化判别函数系数的绝对值初步的绝对值初步判断变量的相对重要性。判断变量的相对重要性。l l
10、通过考察通过考察结构相关系数结构相关系数,也可以对预测变量的相,也可以对预测变量的相对重要性进行判断。对重要性进行判断。l l组重心组重心 毛本清 2010.08.27评估判别分析的有效性评估判别分析的有效性 l根据分析样本估计出的判别权数,乘以保留样本中的预测变量值,就得出保留样本中每个样本的判别分。l可以根据判别分及适当的规则划分为不同的组别。l命中率(hit ratio)或称样本正确分类概率,就是分类矩阵对角线元素之和与总样本数的比例。l比较样本正确分类百分比与随机正确分类百分比。毛本清 2010.08.27因子分析Factor Analysis 毛本清 2010.08.27因子分析因子
11、分析l因子分析模型l因子分析有关统计量l因子分析步骤l案例分析 毛本清 2010.08.27一、因子分析模型(一、因子分析模型(FAFA)l基本思想l因子分析模型 毛本清 2010.08.27FAFA的基本思想的基本思想l“因子分析”于1931年由Thurstone提出,概念起源于Pearson和Spearmen的统计分析lFA用少数几个因子来描述多个变量之间的关系,相关性较高的变量归于同一个因子;lFA利用潜在变量或本质因子(基本特征)去解释可观测变量 毛本清 2010.08.27FAFA模型模型X1=a11F1+a12F2+a1pFp+v1X2=a21F1+a22F2+a2pFp+v2 X
12、AF+VXi=ai1F1+ai2F2+aipFp+viXm=ap1F1+ap2F2+ampFm+vmXi 第i个标准化变量 aip 第i个变量对第p个公因子的标准回归系数F 公因子Vi 特殊因子 毛本清 2010.08.27公因子模型公因子模型F1=W11X1+W12X2+W1mXmF2=W21X1+W22X2+W2mXmFi=Wi1X1+Wi2X2+WimXmFp=Wp1X1+Wp2X2+WpmXmWi 权重,因子得分系数 Fi 第i个因子的估计值(因子得分)毛本清 2010.08.27二、有关统计量二、有关统计量lBartlett氏球体检验:各变量之间彼此独立lKMO值:FA合适性l因子负荷:相关系数l因子负荷矩阵l公因子方差(共同度)l特征值l方差百分比(方差贡献率)l累计方差贡献率l因子负荷图l碎石图 毛本清 2010.08.27三、三、FAFA步骤步骤l定义问题l检验FA方法的适用性l确定因子分析方法l因子旋转l解释因子l计算因子得分 毛本清 2010.08.27注意事项注意事项l样本量不能太小l变量相关性l公因子有实际意义