《多元统计检验PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《多元统计检验PPT讲稿.ppt(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元统计检验第1页,共32页,编辑于2022年,星期六例例:表表1 11 1 12 12名学生名学生5 5门课程的考试成绩门课程的考试成绩序序号号政治政治(x1)语语文文(x2)外外语语(x3)数学数学(x4)物理物理(x5)12345678910111299991009310090759387957685948898889178738473827275939681887282888360904350100999799969597687662673410097100967897898884397837第2页,共32页,编辑于2022年,星期六如果仅用一元统计方法作成绩分析,每次分析处理一门如果
2、仅用一元统计方法作成绩分析,每次分析处理一门课程的成绩,由于忽视了课程之间可能存在的相关性,课程的成绩,由于忽视了课程之间可能存在的相关性,因此,一般说来,丢失的信息太多,分析的结果不能全因此,一般说来,丢失的信息太多,分析的结果不能全面反映全年级的学习情况。面反映全年级的学习情况。需要研究很多问题:用各科成绩的总和作为综合指需要研究很多问题:用各科成绩的总和作为综合指标,来比较学生学习成绩的好坏;根据各科成绩相标,来比较学生学习成绩的好坏;根据各科成绩相近程度对学生进行近程度对学生进行分类分类(如成绩好的和成绩差的,又如(如成绩好的和成绩差的,又如文科成绩好的与理科成绩好的);研究各科成绩之
3、间的文科成绩好的与理科成绩好的);研究各科成绩之间的相关关系相关关系(如物理与数学成绩的关系,文科成绩与(如物理与数学成绩的关系,文科成绩与理科成绩的关系等);理科成绩的关系等);都属于都属于多元统计分析的研究内容多元统计分析的研究内容。第3页,共32页,编辑于2022年,星期六多元分析是以多元分析是以p p个变量的个变量的n n次观测数据所组次观测数据所组成的数据矩阵成的数据矩阵 为依据,对为依据,对p p维总体维总体 进行统计推断的。进行统计推断的。第4页,共32页,编辑于2022年,星期六 英国著名统计学家肯德尔(英国著名统计学家肯德尔(KendallKendall)在在多元分析多元分析
4、一书中把多元统计分析的一书中把多元统计分析的研究内容和方法概括为以下几个方面:研究内容和方法概括为以下几个方面:简化数据结构(降维问题)简化数据结构(降维问题)将复杂的数据结构通过变量代换等方将复杂的数据结构通过变量代换等方式使相互依赖的变量(较多)变成(较少)式使相互依赖的变量(较多)变成(较少)互不相关的;或把高维空间的数据投影到互不相关的;或把高维空间的数据投影到低维空间,使问题简化而损失的信息又不低维空间,使问题简化而损失的信息又不太多。例如,太多。例如,主成分分析、因子分析主成分分析、因子分析等一等一类方法;类方法;第5页,共32页,编辑于2022年,星期六分类与判别分类与判别(归类
5、问题)(归类问题)对所考察的观测点(变量)按相似程对所考察的观测点(变量)按相似程度进行分类(或归类)。如度进行分类(或归类)。如聚类分析聚类分析、判判别分析别分析等;等;变量间的相互联系变量间的相互联系 相互依赖关系:分析一个变量或几个变相互依赖关系:分析一个变量或几个变量的变化是否依赖于另一些变量的变化?量的变化是否依赖于另一些变量的变化?如果是,建立变量间的定量关系式,并用如果是,建立变量间的定量关系式,并用于预测或控制于预测或控制回归分析回归分析;变量间的相互关系:分析两组变量间变量间的相互关系:分析两组变量间的相互关系的相互关系典型相关关系典型相关关系。参数估计与假设检验参数估计与假
6、设检验 检验由多元总体参数表示的某种统计检验由多元总体参数表示的某种统计假设,据此证实假设条件的合理性。假设,据此证实假设条件的合理性。第6页,共32页,编辑于2022年,星期六7.1.2 多元统计分析的应用多元统计分析的应用教育学教育学:体育运动项目的研究(因子分析);:体育运动项目的研究(因子分析);医学医学:利用多元统计方法可建立诊断的准则(即专家系:利用多元统计方法可建立诊断的准则(即专家系统);统);气象学气象学:气候预测:气候预测,气候信息分析;气候信息分析;环境科学环境科学:大气污染问题(假设检验、回归分析);:大气污染问题(假设检验、回归分析);地质学地质学地质数学:矿石归类(
7、判别分析)地质数学:矿石归类(判别分析);考古学考古学;服装工艺服装工艺;经济学:经济学:经济现象分析,预测,实证研究经济现象分析,预测,实证研究;工、农业:工、农业:试验方案的优化试验方案的优化;社会科学社会科学:根据研究对象进行某种分类(聚类分析)根据研究对象进行某种分类(聚类分析);文学文学;其它其它.第7页,共32页,编辑于2022年,星期六7.1.3 样本与常用统计量样本与常用统计量多维随机向量(多维随机向量(P381-P389P381-P389)多元统计分析的基本概念包括分布、数多元统计分析的基本概念包括分布、数字特征、正态随机向量等,与一元统计分字特征、正态随机向量等,与一元统计
8、分析类似有关概念如下:析类似有关概念如下:统计总体统计总体G,用,用p个数量指标来刻画:个数量指标来刻画:视视X为一个为一个p维随机变量。维随机变量。第8页,共32页,编辑于2022年,星期六对总体进行对总体进行n次独立的观察(抽样)得到观次独立的观察(抽样)得到观测数据称为测数据称为样本样本,每个称为,每个称为样品样品,记为,记为矩阵矩阵 X称为称为原始数据矩阵或(多元)样本原始数据矩阵或(多元)样本数据矩阵。数据矩阵。第9页,共32页,编辑于2022年,星期六总体的总体的均值向量、协方差矩阵、相关矩阵均值向量、协方差矩阵、相关矩阵分别为分别为其中其中多元统计分析的任务:多元统计分析的任务:
9、一是分析各观测数据之间的关系;一是分析各观测数据之间的关系;二是推断总体的某些性质。二是推断总体的某些性质。第10页,共32页,编辑于2022年,星期六常用统计量常用统计量样本均值(向量)、样本协方差矩阵、样样本均值(向量)、样本协方差矩阵、样本相关矩阵本相关矩阵分别为分别为第11页,共32页,编辑于2022年,星期六其中其中是一元统计中样本统计量的自然推广。是一元统计中样本统计量的自然推广。对于对于i,j=1,2,p,有:有:第12页,共32页,编辑于2022年,星期六讲解例讲解例7.1(P270)第13页,共32页,编辑于2022年,星期六定义定义7.1:7.1:如果样品如果样品 的函数的
10、函数,满足满足1 1)2 2)3 3)则称是样品之间的距离。则称是样品之间的距离。7.1.4 距离距离 为测度为测度p p维空间两个样品之间的差异,对样品进行维空间两个样品之间的差异,对样品进行分类分类,引入引入”距离距离”。数学上对距离数学上对距离(如欧氏距离如欧氏距离)的三个公理的三个公理:非负性、对称性和三角不等式非负性、对称性和三角不等式。第14页,共32页,编辑于2022年,星期六常用的距离常用的距离欧氏距离欧氏距离 不足之处不足之处:各分量的单位不同时各分量的单位不同时,比较没有意义。比较没有意义。如考察患病指标如考察患病指标(白血球数,体温白血球数,体温),有三个样品,有三个样品
11、 但从医学常识看,显然是个谬误。(但从医学常识看,显然是个谬误。(“大数吃小数大数吃小数”,数值分析)。数值分析)。因此要考虑各项数值的加权问题。因此要考虑各项数值的加权问题。第15页,共32页,编辑于2022年,星期六马氏距离马氏距离定义:定义:为样品之间的马氏距离;为样品之间的马氏距离;为样品到总体的马氏距离。为样品到总体的马氏距离。其中其中:,V分别是总体分别是总体G的均值向量和协方差。的均值向量和协方差。离差大的分量在距离中相应削弱它的影响程度。离差大的分量在距离中相应削弱它的影响程度。不足之处不足之处:马氏距离与测量单位无关马氏距离与测量单位无关,夸大了变化微小夸大了变化微小的变量的
12、作用。的变量的作用。第16页,共32页,编辑于2022年,星期六B B模距离模距离 对于给定的正定矩阵对于给定的正定矩阵B,B,定义定义 为样品为样品Xi与与Xj之间的之间的B B模距离模距离;闵可夫斯基距离闵可夫斯基距离 为样品为样品X Xi i与与X Xj j之间的闵可夫斯基距离之间的闵可夫斯基距离q=2q=2时为时为欧氏距离欧氏距离,q=1,q=1时为时为绝对距离绝对距离,q=+,q=+时为时为切比雪夫距离。切比雪夫距离。讲解例讲解例7.2(P274)第17页,共32页,编辑于2022年,星期六7.2 7.2 多元正态分布的参数估计与检验多元正态分布的参数估计与检验 7.2.1 7.2.
13、1 预备知识预备知识 与一元类似,与一元类似,多元正态分布多元正态分布在多元统计在多元统计分析中处于中心地位。分析中处于中心地位。原因有三:原因有三:大量实际问题服从正态分布;大量实际问题服从正态分布;由中心极限定理,正态分布是其它分布的由中心极限定理,正态分布是其它分布的极限分布;极限分布;理论完善。理论完善。第18页,共32页,编辑于2022年,星期六多元正态分布多元正态分布的定义:的定义:设设 其中其中是相互独立的标准正态随机变量,则称是相互独立的标准正态随机变量,则称为为p维正态随机向量,记为维正态随机向量,记为其中其中 是常向量,是常向量,A A是是pn的常数矩阵。的常数矩阵。特别特
14、别第19页,共32页,编辑于2022年,星期六基本性质基本性质设总体设总体则则 X X的密度函数为的密度函数为设设 则则第20页,共32页,编辑于2022年,星期六设设 是总体是总体X X的样本,样本数据矩的样本,样本数据矩阵如前。阵如前。由样本得到关于未知参数由样本得到关于未知参数 的似然函的似然函数为数为第21页,共32页,编辑于2022年,星期六主要结论主要结论 (1 1)(引理)(引理7.17.1)A A与与S S有关系式有关系式 (2 2)(引理)(引理7.27.2)证明:(见证明:(见P276P276)第22页,共32页,编辑于2022年,星期六(3 3)(引理)(引理7.37.3
15、)设设 是总体是总体 的样本,则样本的样本,则样本均值均值(4 4)(引理)(引理7.47.4)设设 ,令,令 则则 证明:(见证明:(见P277P277)第23页,共32页,编辑于2022年,星期六7.2.2 7.2.2 参数参数和和V V的估计的估计 定理定理7.17.1设总体设总体 是是X的样本,且的样本,且npnp,则,则1 1)是是的极大似然估计的极大似然估计(引理引理7.2)7.2);2 2)若)若已知,则已知,则 是是V V的极大似然估计;的极大似然估计;3 3)若)若未知,则未知,则 是是V V的极大似然估计。的极大似然估计。第24页,共32页,编辑于2022年,星期六定理定理
16、7.27.2:设条件同前,则设条件同前,则1 1)分别是分别是和和V V的无偏估计;的无偏估计;2 2)分别是)分别是和和V V的最小方差无偏估计;的最小方差无偏估计;3 3)分别是)分别是和和V V的相合估计;的相合估计;定理定理7.37.3:设条件同前,则设条件同前,则 是是R R的极大似然估计和相合估计。的极大似然估计和相合估计。例例7.3(P280)7.3(P280)第25页,共32页,编辑于2022年,星期六7.2.3 7.2.3 参数参数的检验的检验 仅讨论均值的检验问题仅讨论均值的检验问题(一)单个多元正态总体(一)单个多元正态总体 的的情形情形 其中其中0是已知的是已知的p p
17、维向量。维向量。设设 是总体的样本,是总体的样本,分别分别是样本均值向量和样本协方差矩阵。是样本均值向量和样本协方差矩阵。构造假设的检验统计量构造假设的检验统计量第26页,共32页,编辑于2022年,星期六(1 1)当)当V V已知时已知时回顾,回顾,p=1p=1时时当假设为真时,当假设为真时,。为推广至多元,改写为为推广至多元,改写为第27页,共32页,编辑于2022年,星期六类比引入统计量类比引入统计量由引理由引理7.47.4知,当知,当 为真时,为真时,当当 为假时,为假时,D D将会变大。因此,给定显著将会变大。因此,给定显著性水平性水平,假设的拒绝域为,假设的拒绝域为第28页,共32
18、页,编辑于2022年,星期六(2 2)当)当V V未知时未知时用用S S取代取代V,V,可以证明,当可以证明,当 为真时为真时 统计量统计量因此,假设的拒绝域为因此,假设的拒绝域为第29页,共32页,编辑于2022年,星期六 (二)两个总体(二)两个总体 情形情形设设 是分别取自上述两个总体的样本,且相互是分别取自上述两个总体的样本,且相互独立,独立,V0V0,类似于前,得到检验方法如下:类似于前,得到检验方法如下:第30页,共32页,编辑于2022年,星期六当当V V已知时,统计量已知时,统计量当假设为真时,当假设为真时,给定给定,假设的拒绝域为,假设的拒绝域为 第31页,共32页,编辑于2022年,星期六当当V V未知时,未知时,由于由于(V V的无偏估计),选用统计量的无偏估计),选用统计量例例7.4(P283)第32页,共32页,编辑于2022年,星期六