《课件第4章 多元统计分析.pptx》由会员分享,可在线阅读,更多相关《课件第4章 多元统计分析.pptx(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、4.1多元统计分析基本概念4.2多元正态分布及其推广4.3主成分分析4.4层次分析4.5聚类分析.4.6判别分析第第 4 章章多元统计分析多元统计分析4.1 多元统计分析基本概念多元统计分析基本概念多元统计分析就是讨论多维随机向量的理论和统计方法的总称。多元统计分析研究的对象就是多维随机向量。多元分布的基本概念可由二元概率分布的自然推广而得到,如联合分 布、边缘分布、条件分布、独立性、特征函数、数字特征等4.1.1 随机向量和随机矩阵数字特征4.1.2 随机向量相互独立性4.1.3 多元样本相关概念4.114.11随机向量和随机矩阵数字特征随机向量和随机矩阵数字特征1. 1.随机向量和随机矩阵
2、的表示随机向量和随机矩阵的表示1. 1.随机向量和随机矩阵的随机向量和随机矩阵的数字特征数字特征设 A, B, C 为常数矩阵,X, Y 为随机矩阵,则有下列几种等式。(1)E(AX)=AE(X);(2)E(AXB)=AE(X)B;(3)E(AX+BY)=AE(X)+BE(Y);(4)D(X)0,R0,即 X 的协方差阵及相关矩阵是非负定矩阵;(5)对常数向量 有 D(X+)D(X);(6)D(AX)=AD(X)AT;(7)Cov(AX, BY)=ACov(X, Y)B T 这里假定上述各式的运算总是可以进行(如满足协方差阵的存在及阶数、维数协调一致等条件)4.124.12随机向量相互独立性随
3、机向量相互独立性1. 1.随机向量的联合分布与边缘分布随机向量的联合分布与边缘分布2随机向量的特征函数随机向量的特征函数3随机向量的相互独立性随机向量的相互独立性随机向量的特征函数随机向量的特征函数4.1.3 多元样本相关概念多元样本相关概念1 1多元样本的表示多元样本的表示 从多元总体中随机抽取 n 个个体 X (1) , X (2) , , X (n) ,若它们相互独立且与总体同分布,则称 X (1) , X (2) , , X (n)为该总体的一个多元随机样本,简称简单样本。2 2多元样本的数字特征多元样本的数字特征4.2 多元正态分布及其推广多元正态分布及其推广4.2.1 多元正态分布
4、定义4.2.2 多元正态变量基本性质4.2.3 多元正态分布参数估计 .4.2.4 多元正态分布变形形式4.2.5 多元正态分布参数假设检验4.2.1 多元正态分布定义多元正态分布定义4.2.2 多元正态变量基本性质多元正态变量基本性质多元正态变量的基本性质有以下 8 个4.2.3 多元正态分布参数估计多元正态分布参数估计1多元正态分布参数的极大似然估计的表示多元正态分布参数的极大似然估计的表示2极大似然估计量的基本性质极大似然估计量的基本性质(1)无偏性(2) 有效性 (3) 一致性4.244.24多元正态分布变形形式多元正态分布变形形式 1.Wishart分布分布2Hotelling T2
5、分布分布4.2.5 多元正态分布参数假设检验无偏性多元正态分布参数假设检验无偏性1多元正态分布的均值向量的检验多元正态分布的均值向量的检验设 X (i) =(X 1i , X 2i , , X pi ) T N p ( i , )(i=1, 2, , n)是 p 维正态总体 N p (, )的随机向量1)已知时单个总体均值向量的检验2)未知时单个总体均值向量的检验3) 两总体协差阵相等(而未知)时均值向量的检验2多元正态分布的协方差检验多元正态分布的协方差检验1)单个 p 元正态总体协方差阵的检验2)两个 p 元正态总体协方差阵相等的检验4.3 主成分分析4.3.1 基本思想4.3.2 主成分
6、分析与几何解释4.3.3 主成分分析步骤4.31 4.31 基本思想基本思想 主成分分析就是把原有的多个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来指标大部分的信息(85%以上),并且各个指标之间保持独立,避免出现重叠信息。主成分分析主要起着降维和简化数据结构的作用。 主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替,通常数学上的处理就是将这 p 个指标进行线性组合作为新的综合指标。4.3.2 4.3.2 主成分分析与几何解释主成分分析与几何解释1 1数学模型数学模型 假设我们所讨论的实际问题中,有 p 个指标,我们把这 p 个指标看作 p 个
7、随机变量,记为 X 1 , X 2 , , X p ,主成分分析就是要把这 p 个指标的问题,转变为讨论 m 个新的指标 Z 1 , Z 2 , ,Z m (mp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维 R 型主成分分析法:主成分是从相关矩阵出发,是对相关矩阵进行分解 S 型主成分分析法:用协方差矩阵代替相关矩阵,从协方差矩阵出发求主成分2 2主成分的几何意义主成分的几何意义3 3主成分个数的选取主成分个数的选取1)85%原则2)i 的原则3) 斯格理(Screet)原则4) 巴特莱特(Bartlet)检验原
8、则4.3.3 主成分分析步骤主成分分析步骤4.4 层层 次次 分分 析析4.4.1 基本思想4.4.2 递阶层次结构建立4.4.3 构造两两比较判断矩阵4.4.4 判断矩阵一致性检验4.4.5 元素对目标层总排序权重4.4.1 基本思想基本思想 简单地说,层次分析法就是运用多因素分级处理来确定因素权重的方法。它是一种定性分析和定量分析相结合的评价决策方法,将评价者对复杂系统的评价思维过程数学化。 层次分析法基本思路是评价者将复杂问题分解为若干层次和若干要素,并在同一层次的各要素之间简单地进行比较、判断和计算,得出不同替代方案的重要度,从而为选择最优方案提供决策依据,然后评估每一层针对上一层因素
9、的重要程度,通过传递性,最后确定因素层的指标相对于目标层的重要程度,确定全部指标的权重系数。4.4.2递阶层次结构建立递阶层次结构建立运用层次分析法时,要把系统问题条理化、层次化,构造出一个层次分析的结构模型。 层次可分为最高层、中间层和最底层。最高层中只有一个元素,它是问题的预定目标或理想结果,因此也叫目标层。中间层包括要实现目标所涉及的中间环节中需要考虑的准则。该层可由若干层次组成,因而有准则和子准则之分,这一层也叫准则层。最底层包括为实现目标可供选择的各种措施、决策方案等,因此也称为措施层或方案层。若把各种所要考虑的因素放在适当的层次内,用层次结构图可清晰地表达这些因素的关系如图 4.2
10、 所示4.4.3 构造两两比较判断矩阵构造两两比较判断矩阵4.4.4 4.4.4 判断矩阵一致性检验判断矩阵一致性检验1 1完全一致性完全一致性若互反判断矩阵 A 的所有元素满足 a i j a jk =a ik ,则称 A 为具有完全一致性矩阵。完全一致性互反判断矩阵 A 具有如下性质。(1)AT 是完全一致性互反判断矩阵。(2)A 的各行成比例,即 rank(A)=1。(3)A 的最大特征根 maxp,且当 A 的最大特征值 =p 时,其余 p-1 个特征值均为零。(4)A 的任一列都是对应于特征值 p 的特征向量。(5)当 19 时,若 aij 且 ajk,则必有 aik。(6)当 1
11、1 时,若 a j 且 a ,则必有 a 。 不是所9有的判断矩阵都满i足完全一jk致性条件,也没ik 有必要这样要求,只是在特殊情况下才有可能满足完全一致性条件。2满意一致满意一致性性1) 计算一致性指标 C.I. (Consistency Index)2) 查找相应的平均随机一致性指标 R.I. (Random Index)3) 计算性一致性比例 C.R. (Consistency Ratio)4.454.45元素对目标层总排序权重元素对目标层总排序权重1. 1.权重计算方法权重计算方法1)和法2) 根法(几何平均法) 3) 特征根法4) 对数最小二乘法5) 最小二乘法2 2元素对目标层的
12、总排序权重元素对目标层的总排序权重 上面得到的是一组元素对其上一层中某元素的权重向量,而最终要得到的是各元素,特别是最低层中各元素对于目标的排序权重,即所谓总排序权重,从而进行方案的选择。总排序权重要自上而下地将单准则下的权重进行合成,并逐层进行总的判断一致性检验4.5 聚聚 类类 分分 析析4.5.1 基本思想4.5.2 衡量相似性统计量4.5.3 系统聚类方法4.5.1 基本思想基本思想 聚类分析是从一批样品的多个指标变量中,定义能度量样品间或变量间相似程度(或亲疏关系)的统计量,在此基础上求出各样品(或变量)之间的相似程度度量值,按相似程度的大小,把样品(或变量)逐一分类,关系密切的类聚
13、集到一个小的分类单位,关系疏远的类聚集到一个大的分类单位,直到所有的样品或变量都聚集完毕,把不同的类型一一划分出来,形成一个亲疏关系谱系图,用以更直观地显示分类对象(样品或变量)的差异和联系聚类分析的内容十分丰富,按其聚类的方法可分为以下几种第一种,系统聚类法第二种,调优法(动态聚类法) 第三种,最优分割法(有序样品聚类法) 第四种,模糊聚类法第五种,图论聚类法第六种,聚类预报法4.5.2 衡量相似性统计量衡量相似性统计量有很多种定义样品间距离或变量间相似性的方法,常用的有以下几种1距离系数距离系数1)明氏(Minkowski)距离2)马氏(Mahalanobis)距离3)兰氏(Canberr
14、a)距离2相似系数相似系数1)夹角余弦2)相关系数4.5.3 系统聚类方法系统聚类方法1.1.最短距离法最短距离法2.2.最长距离法最长距离法3.3.中间距离法中间距离法4.4.重心法重心法5.5.类平均法类平均法6.6.可变类平均法可变类平均法7.7.可变法可变法8.8.离差平方和法离差平方和法 系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有不同的定义,从而得到不同的计算距离的公式,产生了不同的系统聚类方法4.6 判判 别别 分分 析析4.6.1 Fisher 两类判别4.6.2 Bayes 多类判别4.6.3 逐步判别分析4.6.1 Fisher 4.
15、6.1 Fisher 两类判别两类判别1训练样本的观测值2建立判别函数 判别函数一般是线性判别函数3u值的判别界值4对判别函数检验4.6.2 4.6.2 BayesBayes 多类判别多类判别 上节所介绍的 Fisher 判别方法主要适用于两类判别。本节介绍 Bayes 判别方法,适用于当已知个体可分为 G 类(G2)的情况1 1训练样本的观测值训练样本的观测值2 2建立判别函数建立判别函数(1)计算各类均值及协方差阵(2)判别系数(3)建立判别函数3 3各类之间的差异显著检验各类之间的差异显著检验(1)两类之间差异显著性检验(2)多类之间差异显著性检验4.6.3 4.6.3 逐步判别分析逐步判别分析挑选那些判别能力真正强的变量建立判别函数,即逐步判别分析法1逐步判别分析的基本思想2逐步判别的基础理论对判别变量附加信息的检验3引入和剔除变量的依据和检验统计量1)Wilks 统计量2)引入和剔除变量4逐步判别的变换公式5逐步判断分析的计算步骤6判别效果检验7判别函数建立