《应用多元统计分析讲稿(朱建平)45406.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析讲稿(朱建平)45406.docx(78页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一章 多元分析概述第一节 引言多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。近30年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业和经济等许多领域,已经成为解决实际问题的有效方法。然而,随着Internet的日益普及,各行各业都开始采用计算机及相应的信息技术进行管理和决策,这使得各企事业单位生成、收集、存储和处理数据的能力大大提高,数据量与日俱增,大量复杂信息层出不穷。在信息爆炸的今天,人们已经意识到数据最值钱的时代已经到来。显然,大量量信息在在给人们们带来方方便的同同时也带带来一系系列问题题。比如如:信息
2、息量过大大,超过过了人们们掌握、消消化的能能力;一一些信息息真伪难难辩,从从而给信信息的正正确应用用带来困困难;信信息组织织形式的的不一致致性导致致难以对对信息进进行有效效统一处处理等等等,这种种变化使使传统的的数据库库技术和和数据处处理手段段已经不不能满足足要求.Intternnet的的迅猛发发展也使使得网络络上的各各种资源源信息异异常丰富富,在其其中进行行信息的的查找真真如大海海捞针。这这样又给给多元统统计分析析理论的的发展和和方法的的应用提提出了新新的挑战战。多元统计分分析起源源于上世世纪初,1928年Wishart发表论文多元正态总体样本协差阵的精确分布,可以说是多元分析的开端。20世
3、纪30年代R.A. Fisher 、H.Hotelling、S.N.Roy、许宝騄等人作了一系列得奠基性工作,使多元分析在理论上得到了迅速得发展。20世纪40年代在心理、教育、生物等方面有不少得应用,但由于计算量大,使其发展受到影响,甚至停滞了相当长得时间。20世纪50年代中期,随着电子计算机得出现和发展,使多元分析方法在地质、气象、医学、社会学等方面得到广泛得应用。20世纪60年代通过应用和实践又完善和发展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大。20世纪70年代初期在我国才受到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作已
4、达到国际水平,并已形成一支科技队伍,活跃在各条战线上。 在20世纪纪末与本本世纪初初,人们们获得的的数据正正以前所所未有的的速度急急剧增加加,产生生了很多多超大型型数据库库,遍及及超级市市场销售售、银行行存款、天天文学、粒粒子物理理、化学学、医学学以及政政府统计计等领域域,多元元统计与与人工智智能和数数据库技技术相结结合,已已在经济济、商业业、金融融、天文文等行业业得到了了成功的的应用。为了让人们们更好的的较为系系统地掌掌握多元元统计分分析的理理论与方方法,本本书重点点介绍多多元正态态总体的的参数估估计和假假设检验验以及常常用的统统计方法法。这些些方法包包括判别别分析、聚聚类分析析、主成成分分
5、析析、因子子分析、对对应分析析、典型型相关分分析、多多维标度度法以及及多变量量的可视视化分析析等。与与此同时时,我们们将利用用在我国国广泛流流行的SSPSSS统计软软件来实实现实证证分析,做做到在理理论的学学习中体体会应用用,在应应用的分分析中加加深理论论。第二节 应用背背景二、多元统统计分析析方法的的应用 这里我们要要通过一一些实际际的问题题,解释释选择统统计方法法和研究究目的之之间的关关系,这这些问题题以及本本书中的的大量案案例能够够使得读读者对多多元统计计分析方方法在各各个领域域中的广广泛应用用有一定定的了解解。多元元分析方方法从研研究问题题的角度度可以分分为不同同的类,相相应有具具体解
6、决决问题的的方法,参参看表11.1。多元统计分分析方法法在经济济管理、农农业、医医学、教教育学、体体育科学学、生态态学、地地质学、社社会学、考考古学、环环境保护护、军事事科学、文文学等方方面都有有广泛的的应用,这这里我们们例举一一些实际际问题,进进一步了了解多元元统计分分析的应应用领域域,让读读者从感感性上加加深对多多元统计计分析的的认识。问题 内容 方法 数据或结构构性化简简 尽可能简单单地表示示所研究究的现象象,但不不损失很很多有用用的信息息,并希希望这种种表示能能够很容容易的解解释。 多元回归分分析、聚聚类分析析、主成成分分析析、因子子分析、相相应分析析、多维维标度法法、可视视化分析析
7、分类和组合合 基于所测量量到的一一些特征征,给出出好的分分组方法法,对相相似的对对象或变变量分组组。 判别分析、聚聚类分析析、主成成分分析析、可视视化分析析 变量之间的的相关关关系 变量之间是是否存在在相关关关系,相相关关系系又是怎怎样体现现。 多元回归、典典型相关关、主成成分分析析、因子子分析、相相应分析析、多维维标度法法、可视视化分析析 预测与决策策 通过统计模模型或最最优准则则,对未未来进行行预见或或判断。 多元回归、判判别分析析、聚类类分析、可可视化分分析 假设的提出出及检验验检验由多元元总体参参数表示示的某种种统计假假设,能能够证实实某种假假设条件件的合理理性。 多元总体参参数估计计
8、、假设设检验 1、城镇居居民消费费水平通通常用八八项指标标来描述述,如人人均粮食食支出、人人均副食食支出、人人均烟酒酒茶支出出、人均均衣着商商品支出出、人均均日用品品支出、人人均燃料料支出、人人均非商商品支出出。这八八项指标标存在一一定的线线性关系系。为了了研究城城镇居民民的消费费结构,需需要将相相关强的的指标归归并到一一起,这这实际就就是对指指标进行行聚类分分析。2、在企业业经济效效益的评评价中,涉涉及到的的指标往往往很多多,如百百元固定定资产原原值实现现产值、百百元固定定资产原原值实现现利税、百百元资金金实现利利税、百百元工业业总产值值实现利利税、百百元销售售收入实实现利税税、每吨吨标准煤
9、煤实现工工业产值值、每千千瓦时电电力实现现工业产产值、全全员劳动动生产率率、百元元流动资资金实现现产值。如如何将这这些具有有错综复复杂关系系的指标标综合成成几个较较少的因因子,既既有利于于对问题题进行分分析和解解释,又又能便于于抓住主主要矛盾盾做出科科学的评评价。可可用主成成分分析析和因子子分析法法。3、某一产产品是用用两种不不同原料料生产的的,试问问此两种种原料生生产的产产品寿命命有无显显著差异异?又比比如,若若考察某某商业行行业今年年和去年年的经营营状况,这这时需要要看这两两年经营营指标的的平均水水平是否否有显著著差异以以及经营营指标之之间的波波动是否否有显著著差异。可可用多元元正态总总体
10、均值值向量和和协差阵阵的假设设检验。4、按现行行统计报报表制度度,农村村家庭纯纯收入是是指农村村常住居居民家庭庭总收入入中扣除除从事生生产和非非生产经经营用支支出、税税款和上上交承包包集体任任务金额额以后剩剩余的、可可直接用用于进行行生产的的、非生生产性建建设投资资、生产产性消费费的那一一部分收收入。如如果我们们收集某某年各个个省、自自治区、直直辖市农农民家庭庭人均纯纯收入的的数据,可可以用相相应分析析,揭示示全国农农民人均均纯收入入的特征征以及各各省、自自治区、直直辖市与与各收入入指标的的关系。5、某医院院已有1100个个分别患患有胃炎炎、肝炎炎、冠心心病、糖糖尿病等等的病人人资料,记记录了
11、他他们每个个人若干干项症状状指标数数据。如如果对于于一个新新的病人人,当也也测得这这若干项项症状指指标时,可可以利用用判别分分析方法法判定他他患的是是哪种病病。6、有1000种酒酒,品尝尝家可以以对每两两种酒进进行品尝尝对比,给给出一种种相近程程度的得得分(越越相近得得分越高高,相差差越远得得分越低低),希希望用这这些得分分数据来来了解这这1000种酒之之间的结结构关系系。这样样的问题题就可以以用多维维标度法法来解决决。7、在地质质学中,常常常要研研究矿石石中所含含化学成成分之间间的关系系。设在在某矿体体中采集集了600个标本本,对每每个标本本测得220个化化学成分分的含量量。我们们希望通通过
12、对这这20个化化学成分分的分析析,了解解矿体的的性质和和矿体形形成的主主要原因因。8、对10000个个类似的的鱼类样样本,如如何根据据测量的的特征如如体重、身身长、鳍鳍数、鳍鳍长、头头宽等,我我们可以以利用聚聚类分析析方法将将这类鱼鱼分成几几个不同同品种。9、考古学学家对挖挖掘出来来的人头头盖骨的的高、宽宽等特征征来判断断是男或或女,根根据挖掘掘出的动动物牙齿齿的有关关测试指指标,判判别它是是属于哪哪一类动动物牙齿齿、是哪哪一个时时代的。10、在高高考招生生工作中中,我们们知道每每个考生生的基本本情况,通通过分析析我们不不仅可以以了解到到学生喜喜欢学习习的科目目,还可可以进一一步从考考生每门门
13、课程的的成绩,分分析出学学生的逻逻辑思维维能力、形形象思维维能力和和记忆力力等等对对学习成成绩的影影响。第二章 多多元正态态分布的的参数估估计第一节 引言 多元统计分分析涉及及到的都都是随机机向量或或多个随随机向量量放在一一起组成成的随机机矩阵。例例如在研研究公司司的运营营情况时时,要考考虑公司司的获利利能力、资资金周转转能力、竞竞争能力力以及偿偿债能力力等财务务指标;又如在在研究国国家财政政收入时时,税收收收入、企企业收入入、债务务收入、国国家能源源交通重重点建设设基金收收入、基基本建设设贷款归归还收入入、国家家预算调调节基金金收入、其其他收入入等都是是需要同同时考察察的指标标。显然然,如果
14、果我们只只研究一一个指标标或是将将这些指指标割裂裂开分别别研究,是是不能从从整体上上把握研研究问题题的实质质的,解解决这些些问题就就需要多多元统计计分析方方法。为为了更好好的探讨讨这些问问题,本本章我们们首先论论述有关关随机向向量的基基本概念念和性质质。在实用中遇遇到的随随机向量量常常是是服从正正态分布布或近似似正态分分布,或或虽本身身不是正正态分布布,但它它的样本本均值近近似于正正态分布布。因此此现实世世界中许许多实际际问题的的解决办办法都是是以总体体服从正正态分布布或近似似正态分分布为前前提的。在在多元统统计分析析中, 多元正正态分布布占有很很重要地地位,本本书所介介绍的方方法大都都假定数
15、数据来之之多元正正态分布布。为此此,本章章将要介介绍多元元正态分分布的定定义和有有关性质质。然而在实际际问题中中,多元元正态分分布中均均值向量量和协差差阵通常常是未知知的,一一般的做做法是由由样本来来估计。这这是本章章讨论的的重要内内容之一一,在此此我们介介绍最常常见的最最大似然然估计法法对参数数进行估估计,并并讨论其其有关的的性质。第二节 基本概概念一、随机向向量我们所讨论论的是多多个变量量的总体体,所研研究的数数据是同同时p个指标标(变量量),又又进行了了n次观测测得到的的,我们们把这个个p指标表表示为XX1 ,X2,L,Xp,常用用向量XX = (X11 , X2 , L , XP) 表
16、示对对同一个个体观测测的p个变量量。这里里我们应应该强调调,在多多元统计计分析中中,仍然然将所研研究对象象的全体体称为总总体,它它是由许许多(有有限和无无限)的的个体构构成的集集合,如如果构成成总体的的个体是是具有pp个需要要观测指指标的个个体,我我们称这这样的总总体为pp维总体体(或pp元总体体)。上上面的表表示便于于人们用用数学方方法去研研究p维总体体的特性性。这里里“维”(或“元”)的概概念,表表示共有有几个分分量。若若观测了了n个个体体,则可可得到如如表2.1的数数据,称称每一个个个体的的p个变量量为一个个样品,而而全体nn个样品品组成一一个样本本。表2.1 数据据变量 序号12在这里
17、横看看表2.1,记记为 , 表示第个样样品的观观测值。竖竖看表22.1,第第列的元元素 , 表示对第个个变量的的次观测测数值。因此,表22.1所所反映出出的样本本资料可可用矩阵阵表示为为 (22.1)简记为X。定义2.11 将将个随机机变量的的整体称称为维随随机向量量,记为为。在对随机向向量的研研究仍然然限于讨讨论离散散型和连连续型两两类随机机向量。二、多元分分布先回顾一下下一元统统计中分分布函数数和密度度函数的的定义。设是一个随随机变量量,称为为的概率率分布函函数或简简称为分分布函数数,记为为。若随机变量量在有限限或可列列个值上上取值,记记,且,则称称为离散散型随机机变量,称称,为的概率率分
18、布。设,若存在在一个非非负函数数,使得得一切实实数有:,则称称为的分布布密度函函数,简简称为密密度函数数。一个个函数能能作为某某个随机机变量的的分布密密度函数数的重要要条件是是:(1),对对一切实实数;(2)。定义2.22 设设是维随机机向量,它它的多元元分布函函数定义义为 (2.2)记为,其中中,表示维欧欧氏空间间。多维随机向向量的统统计特性性可用它它的分布布函数来来完整地地描述。定义2.33 设设是维随机机向量,若若存在有有限个或或可列个个维数向向量,记记,且满足足,则称称为离散散型随机机向量,称称,为的概率率分布。设,若存在在一个非非负函数数,使得得对一切切有(2.3)则称为连续续型随机
19、机变量,称称为分布布密度函函数,简简称为密密度函数数或分布布密度。一个元函数数能作为为中某个个随机向向量的密密度函数数的主要要条件是是:(1),;(2)离散型随机机向量的的统计性性质可由由它的概概率分布布完全确确定,连连续型随随机向量量的统计计性质可可由它的的分布密密度完全全确定。【例2.11】 试证函函数 为随机向量量密度函函数。证:只要验验证满足足密度函函数两个个条件即即可 (11)显然然,当时时有 (22)定义2.44 设设是维随机机向量,称称由它的的个分量量组成的的子向量量的分布布为的边边缘(或或边际)分分布,相相对地把把的分布布称为联联合分布布。通过过变换中中各分量量的次序序,总可可
20、假定正正好是的的前个分分量,其其余个分分量为,则则,相应应的取值值也可分分为两部部分。当的分布函函数是时时,的分分布函数数即边缘缘分布函函数为: 当有分布密密度时(亦亦称联合合分布密密度函数数),则则也有分分布密度度,即边边缘密度度函数为为:【例2.22】对例例2.11中的求求边缘密密度函数数。解: 同同理定义2.55 若若个随机机变量的的联合分分布等于于各自的的边缘分分布的乘乘积,则则称是相相互独立立的。【例2.33】 问例22.2中中的与是否相相互独立立? 解: 由于,故与与相互独独立。这里我们应应该注意意,由相相互独立立,可推推知任何何与独立,但但反之不不真。定义2.66 设,若若存在且
21、且有限,则则称为的均值值(向量量)或数数学期望望,有时时也把和和分别记记为和,即,容容易推得得均值(向向量)具具有以下下性质:(1)(2)(3)其中,、为为随机向向量,、为大小小适合运运算的常常数矩阵阵。定义2.77 设,称(2.4)为的方差或或协差阵阵,有时时把简记记为,简记为为,从而而有;称称随机向向量和的协差差阵为(2.5)当时,即为为。若,则称和和不相关关,由和和相互独独立易推推得,即即和不相关关;但反反过来,当当和不相关关时,一一般不能能推知它它们独立立。当、为常数数矩阵时时,由定定义可以以推出协协方差阵阵有如下下性质:(1)对于于常数向向量,有有(2)(3)(4)设为为维随机机向量
22、,期期望和协协方差存存在,记记,为常数阵阵,则 这里我们应应该注意意到,对对于任何何的随机机向量来来说,其其协差阵阵都是对对称阵,同同时总是是非负定定(半正正定)的的。大多多数情况况是正定定的。若的协差阵阵存在,且且每个分分量的方方差大于于零,则则称随机机向量的的相关阵阵为,其其中 (22.6)为与的相关关系数。在数据处理理时,为为了克服服由于指指标的量量纲不同同对统计计分析结结果带来来的影响响,往往往在使用用各种统统计分析析之前,常常需要将将每个指指标“标准化化”,即进进行如下下变换, (22.7)那么由(22.7)构构成的随随机向量量。令,有有:那么,标准准化后的的随机向向量均值值和协差差
23、阵分别别为 即标准化数数据的协协差阵正正好是原原指标的的相关阵阵。第三节 多元元正态分分布一、多元正正态分布布的定义义我们先来回回顾一元元正态分分布的密密度函数数,即为为上式可以改改写为(22.8)由于(2.8)式式中的,均为一一维的数数字,可可以用代代表的转转置。根根据上面面的表述述形式,我我们可以以将其推推广,给给出多元元正态分分布的定定义。定义2.88 若维随随机向量量的密度度函数为为: (2.9)其中,是维维随机向向量,是是阶正定定阵,则则称服从从元正态态分布,也也称为维正态态随机向向量,简简记为,显显然当时时,即为为一元正正态分布布密度函函数。可以证明为为的均值值(向量量),为为的协
24、差差阵。这里我们应应该提及及的是,当当时,不存存在,也也就不存存在通常常意义下下的密度度函数,然然而可以以形式的的给出一一个表达达式,是是的有些些问题可可以利用用这一形形式对及及的情况况给出一一个统一一的处理理。当时,设服服从二元元正态分分布,则则,这里,分别别是与的方差差,是与的相关关系数。即即有故与的密度度函数为为对于,那么么与是相互互独立的的;若,则则与趋于正正相关;若,则则与趋于负负相关。定理2.11 设,则则有,。关于这个定定理的证证明可以以参考文文献11,该该定理将将多元正正态分布布的参数数和赋予了了明确的的统计意意义。这里我们需需要明确确的是,多多元正态态分布的的定义不不止是一一
25、种,更更广泛的的可以采采用特征征函数来来定义,也也可以用用一切线线性组合合均为正正态的性性质来定定义。二、多元正正态分布布的性质质 在讨论多元元统计分分析的理理论和方方法时,经经常用到到多元正正态变量量的某些些性质,利利用这些些性质可可使得正正态分布布的处理理变得容容易一些些。1若,是是对角阵阵,则相相互独立立。2若,为为阶常数数阵,为为维常数数向量,则则 即正态随机机向量的的线性函函数还是是正态的的。3若,将将,作如下下剖分 则,。这里需要指指出的是是:第一一,多元元正态分分布的任任何边缘缘分布为为正态分分布,但但反之不不真。第第二,由由于,故故表示和不相关关,因此此可知,对对于多元元正态变
26、变量而言言,和的不相相关与独独立是等等价的。【例2.44】 若若其中, 设 ,则则(1) 其中 (2) 其中 (3) 记 则 其中 在此我们应应该注意意到,如如果服从从元正态态分布,则则它的每每个分量量必服从从一元正正态分布布,因此此把某个个分量的的个样品品值作成成直方图图,如果果断定不不呈正态态分布,则则就可以以断定随随机向量量也不可可能服从从元正态态分布。第四节 多元元正态分分布的参参数估计计 一、多元样样本的数数字特征征 设样本资料料可用矩矩阵表示示为在这里我们们给出样样本均值值向量、样样本离差差阵、样样本协差差阵以及及样本相相关阵的的定义。定义2.99 设设为来自自元总体体的样本本,其
27、中中,。(1) 样本均值向向量定义义为其中(2)样本本离差阵阵定义为为 (2.11)这里, (3)样本本协差阵阵定义为为 (22.122)这里,(4)样本本相关阵阵定义为为 (2.13) 其中在此,我们们应该提提及的是是,样本本均值向向量和离离差阵也也可用样样本资料料阵直接接表示如如下: 其中中 由于 那么,(22.111)式可可以表示示为: (2.14)其中 二、均值向向量与协协差阵的的最大似似然估计计 多元正态分分布有两两组参数数,均值值和协差差阵,在在许多问问题中它它们是未未知的,需需要通过过样本来来估计。那那么,通通过样本本来估计计总体的的参数叫叫做参数数估计,参参数估计计的原则则和方
28、法法是很多多的,这这里用最最常见的的且具有有很多优优良性质质的最大大似然法法给出和和的估计计量。设来自正态态总体容容量为的的样本,每每个样品品,样本本资料阵阵为(22.1)式式表示,即即 则可由最大大似然法法求出和和的估计计量,即即有 , (22.155)实际上,最最大似然然法求估估计量可可以这样样得到。针针对来自自正态总总体容量量为的样样本,构构造似然然函数,即即 (2.16)为了求出使使(2.16)式式取极值值的和的值,将将(2.16)两两边取对对数,即即 (22.177)因为对数函函数是一一个严格格单调增增函数,所所以可以以通过对对的极大大值而得得到和的估计计量。这里我们要要注意到到,根
29、据据矩阵代代数理论论,对于于实对称称矩阵,有有,。那么,针对对对数似似然函数数(2.17)分分别对和和求偏导导数,则则有(2.188)由(22.188)式可可以得到到极大似似然估计计量分别别为由此可见,多多元正态态总体的的均值向向量的极极大似然然估计量量就是样样本均值值向量,其其协差阵阵的极大大似然估估计就是是样本协协差阵。和的估计量量有如下下基本性性质:1,即是是的无偏偏估计; ,即即不是的无无偏估计计,而,即即是的无偏偏估计;2,分别别是,的有效效估计;3,(或或)分别别是,的一致致估计(相相合估计计)。样本均值向向量和样样本离差差阵在多多元统计计推断中中具有十十分重要要的作用用,并有有如
30、下结结论:定理2.22 设设和分别是是正态总总体的样样本均值值向量和和离差阵阵,则1;2离差阵阵可以写写为 其中,独独立同分分布于;3和相互互独立;4为正定定阵的充充要条件件是。三、Wissharrt分布布在实际应用用中,常常采用和和来估计计和,前面面已指出出,均值值向量的的分布仍仍为正态态分布,而而离差阵阵的分布布又是什什么呢?为此给给出维希希特(WWishhartt)分布布,并指指出它是是一元分分布的推推广,也也是构成成其它重重要分布布的基础础。Wishaart分分布是WWishhartt在19928年年推导出出来的,而而该分布布的名称称也即由由此得来来。定义2.110 设,且相互互独立,
31、则则由组成成的随机机矩阵: (22.199)的分分布称为为非中心心Wissharrt分布布,记为为。其中,称为为非中心心参数;当时称称为中心心Wissharrt分布布,记为为,当,有密度度存在,其其表达式式为: (2.220)显然,当,时,就是是的分布布密度,此此时(22.199)式为为,有。因因此,WWishhartt分布是是分布在在维正态态情况下下的推广广。下面给出WWishhartt分布的的基本性性质:若,且且相互独独立,则则样本离离差阵,其中。2若,且且相互独独立,则则。3若,为为非奇异异阵,则则。这里我们有有必要说说明一下下什么是是随机矩矩阵的分分布。随随机矩阵阵的分布布有不同同的定
32、义义,此处处是利用用已知向向量分布布的定义义给出矩矩阵分布布的定义义。这里我们有有必要说说明一下下什么是是随机矩矩阵的分分布。随随机矩阵阵的分布布有不同同的定义义,此处处是利用用已知向向量分布布的定义义给出矩矩阵分布布的定义义。设随机矩阵阵 将该矩阵的的列向量量(或行行向量)一一个接一一个地连连接起来来,组成成一个长长的向量量,即拉拉直向量量:的分布定义义为该阵阵的分布布。若为为对称阵阵时,由由于,故只只取其下下三角部部分组成成的拉直直向量,即即。第三章 多多元正态态分布均均值向量量和协差差阵的检检验第一节 引言言 在单一变量量的统计计分析中中,已经经给出了了正态总总体N( m, s2) 的均
33、值值m和方差差s2的各种种检验。对对于多变变量的正正态总体体Np( m, ) ,各种种实际问问题同样样要求对对m和进行统统计推断断。例如,我们们要考察察全国各各省、自自治区和和直辖市市的社会会经济发发展状况况,与全全国平均均水平相相比较有有无显著著性差异异等,就就涉及到到多元正正态总体体均值向向量的检检验问题题等。本章类似单单一变量量统计分分析中的的各种均均值和方方差的检检验,相相应地给给出多元元统计分分析中的的各种均均值向量量和协差差阵的检检验。 其基本思想想和步骤骤均可归归纳为: 第第一,提提出待检检验的假假设H0和H1;第二,给给出检验验的统计计量及其其服从的的分布;第三,给给定检验验水
34、平,查查统计量量的分布布表,确确定相应应的临界界值,从从而得到到否定域域;第四,根根据样本本观测值值计算出出统计量量的值,看看是否落落入否定定域中,以以便对待待判假设设做出决决策(拒拒绝或接接受)。在检验的过过程中,关关键在于于对不同同的检验验给出不不同的统统计量,而而有关统统计量的的给出大大多用似似然比方方法得到到。由于于多变量量问题的的复杂性性,本章章只侧重重于解释释选取统统计量的的合理性性,而不不给出推推导过程程,最后后给出几几个实例例。为了更好的的说明检检验过程程中统计计量的分分布,本本章还要要介绍HHoteelliingTT2分布和和Willks分分布的定定义。第二节 均值值向量的的
35、检验 一、单一变变量检验验的回顾顾及HootelllinngT2分布为了对多元元正态总总体均值值向量作作检验,首首先需要要给出HHoteelliingTT2分布的的定义。在单一变量量的检验验问题中中,设来来自总体体的样本本,我们们要检验验假设当已知时,用用统计量量 (33.1)其中,为样样本均值值。当假假设成立立时,统统计量服服从正态态分布,从从而否定定域为,为的上分位位点。当未知时,用用 (33.2)作为的估计计量,用用统计量量: (3.3)来做检验。当当假设成成立时,统统计量服服从自由由度为的的分布,从从而否定定域为,为自由由度为的的分布上上的分位位点。 这里我们应应该注意意到,(33.3
36、)式式可以表表示为 (33.4)对于多元变变量而言言,可以以将分布布推广为为下面将将要介绍绍的Hootelllinng分布布。定义3.11 设设,且与相互独独立,则则称统计计量的分分布为非非中心HHoteelliingTT2分布,记记为。当当时,称称服从(中中心)HHoteelliing分分布。记记为。由于这一统统计量的的分布首首先由HHaroold Hottelllingg 提出出来的,故故称为HHoteelliing分分布,值值得指出出的是,我我国著名名统计学学家许宝宝禄先生生在19938年年用不同同方法也也导出分分布的密密度函数数,因表表达式很很复杂,故故略去。在单一变量量统计分分析中,
37、若若统计量量分布,则则分布,即即把分布布的统计计量转化化为统计计量来处处理,在在多元统统计分析析中统计计量也具具有类似似的性质质。定理3.11 若,且与相互独独立,令令,则 (33.5)在我们后面面所介绍绍的检验验问题中中,经常常会用到到这一性性质。设是来自维维正态总总体的样样本,且且,。(一) 协差阵已知知时均值值向量的的检验(为已知向向量)假设成立,检检验统计计量为 (3.6)给定检验水水平,查查分布表表使,可可确定出出临界值值,再用用样本值值计算出出,若,则则否定,否否则接受受。这里要对统统计量的的选取做做一些解解释,为为什么该该统计量量服从分分布。根根据二次次型分布布定理知知道,若若,
38、则。显显然,其中,因因此,(二)协差差阵未知知时均值值向量的的检验(为已知向向量)假设成立,检检验统计计量为 (33.7)其中,给定检验水水平,查查分布表表,使,可可确定出出临界值值,再用用样本值值计算出出,若,则则否定,否否则接受受。这里需要解解释的是是,当未未知时,自自然想到到要用样样本协差差阵取代代替,因因是的无偏偏估计量量,而样样本离差差阵 由定义3.1知 再根据Hootelllinng 分分布的性性质,所所以 在处理实际际问题时时,单一一变量的的检验和和多变量量检验可可以联合合使用,多多元的检检验具有有概括和和全面考考察的特特点,而而一元的的检验容容易发现现各变量量之间的的关系和和差
39、异,能能给人们们提供更更多的统统计分析析信息。三、两个正正态总体体均值向向量的检检验(一)当协协差阵相相等时,两两个正态态总体均均值向量量的检验验设,为来来自维正正态总体体的容量量为的样样本;,为来来自维正正态总体体的容量量为的样样本。两两组样本本相互独独立,且且,。1针对有有共同已已知协差差阵的情情形对假设 进进行检验验。对此问题,假假设成立立时,所所构造的的检验统统计量为为 (33.8)给出检验水水平,查查分布表表使,可可确定出出临界值值,再用用样本值值计算出出,若,则则否定,否否则接受受。这里,我们们应该注注意到,在在单一变变量统计计中进行行均值相相等检验验所给出出的统计计量为 显然此式
40、恰为上上边统计计量当时时的情况况,不难难看出这这里给出出的检验验统计量量是单一一变量检检验情况况的推广广。2针对有有共同的的未知协协差阵的的情形对假设 进行检检验。对此问题,假假设成立立时,所所构造的的检验统统计量为为 (3.99)其中, , , 给定检验水水平,查查分布表表,使,可可确定出出临界值值,再用用样本值值计算出出,若,则则否定,否否则接受受。这里我们需需要解释释的是,当当两个总总体的协协差阵未未知时,自自然想到到用每个个总体的的样本协协差阵和和去代替替,而 从而。又由由于 所以 下述假设检检验统计计量的选选取和前前边统计计量的选选取思路路是一样样的,以以下只提提出待检检验的假假设,
41、然然后给出出统计量量及其分分布,为为节省篇篇幅,不不做重复复解释。(二)协差差阵不等等时,两两个正态态总体均均值向量量的检验验设从两个总总体和中,分分别抽取取两个样样本,即即,;,其容容量分别别为和,且两两组样本本相互独独立,。对假设 进行检检验。1针对的的情形令 假设成立时时,构造造检验统统计量为为 (33.100) 2针对的的情形 在此,我我们不妨妨假设,令令 假设成立时时,构造造检验统统计量为为 四、多个正正态总体体均值向向量的检检验解决多个正正态总体体均值向向量的检检验问题题,实际际上应用用到多元元方差分分析的知知识。多多元方差差分析是是单因素素方差分分析直接接的推广广。为了了容易理理
42、解多元元方差分分析方法法,我们们有必要要先回顾顾单因素素方差分分析方法法。(一)单因因素方差差分析的的基本思思想及WWilkks分布布设个正态总总体分别别为,从个总总体取个个独立样样本如下下: 假设成立时时,构造造检验统统计量为为 (33.111) 这里称为组组间平方方和; 称为为组内平平方和;称为总总平方和和。其中中 给定检验水水平,查查分布表表,使,可可确定出出临界值值,再用用样本值值计算出出值,若若,则否否定,否否则接受受。定义3.22 若若,则称称协差阵阵的行列列式为的广义义方差。称称为样本本广义方方差。其其中。定义3.33 若若,且和相互独独立,则则称 为Wilkks统计计量,的的分
43、布称称为Wiilkss分布,简简记为,其其中为自自由度。这里我们需需要说明明的是,在在实际应应用中经经常把统统计量化化为统计计量进而而化为统统计量,利利用统计计量来解解决多元元统计分分析中有有关检验验问题。表表3.11列举常常见的一一些情形形。表3.1 与统计量量的关系系统计量及分分别任意任意1任意任意21任意任意2任意任意以上几个关关系式说说明对一一些特殊殊的统计计量可以以化为统统计量,而而当,时,可可用统计计量或统统计量来来近似表表示,后后面给出出。(二)多元元方差分分析法设有个维正正态总体体,从每每个总体体抽取独独立样本本个数分分别为,每个个样品观观测个指指标得观观测数据据如下: 第一一个总体体: ,第二个总体体: , 第个个总体: ,全部样品的的总均值值向量: 各总体样品品的均值值向量: ,此处 类似一元方方差分析析办法,将将诸平方方和变成成了离差差阵即: 这里,我们们称为组组间离差差阵;为为组内离离