多元正态分布..ppt

上传人:石*** 文档编号:38708560 上传时间:2022-09-05 格式:PPT 页数:58 大小:5.68MB
返回 下载 相关 举报
多元正态分布..ppt_第1页
第1页 / 共58页
多元正态分布..ppt_第2页
第2页 / 共58页
点击查看更多>>
资源描述

《多元正态分布..ppt》由会员分享,可在线阅读,更多相关《多元正态分布..ppt(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、多元正态分布.现在学习的是第1页,共58页pXX,1定义2:独立标准正态变量 的有限线性组合 mmppXXAYYY11称为m维正态随机变量,记为 其中但是 的分解一般不是唯一的。定义3:若随机向量X的特征函数为:其中t为实向量,则称X服从p元正态分布。特征函数定义的优点在于可以包含 的情况。),(YpNAA AA ttt it21exp)(0现在学习的是第2页,共58页二元正态分布曲面(11=1,22=1,12=0)现在学习的是第3页,共58页二元正态分布曲面(11=2,22=4,12=0.75)现在学习的是第4页,共58页二、多元正态分布的性质 性质1:若 ,是对角矩阵,则 相互独立。性质2

2、:若 则 ),(),(1XppNXX pXX,1),(XpN维常数向量为阶常数矩阵,为sdpsA),(AAdANdAXs性质3:若 ,将 作剖分:则),(XpN,XqqpqqpqqpXXX22211211)2()1()2()1(,),(),(22)2()2(11)1()1(qqNXNX现在学习的是第5页,共58页特别地,二元正态分布:),(),(221NXXX22221122111121),()1,0,0(212211212211112211),cov(,XXDXDXEXEX现在学习的是第6页,共58页21121111112)(exp21)(xxf22222222222)(exp21)(xxf

3、21,XX的边缘密度函数为:当 时X1与X2不相关,对于正态分布来说不相关和独立等价。因为:0为X1和X2的相关系数。现在学习的是第7页,共58页三、正态分布数据的变换若一批多元数据不满足正态分布时,一般要对数据进行正态变换。一般来说常采用幂变换,如果想使值变小可以采用变换:21411,ln,xxxx如果想使值变大,则采用变换:32,xx不管使用哪种幂变换,还应该对变换后的数据的正态性做检验(如Q-Q图方法)现在学习的是第8页,共58页2多元正态分布的参数估计 一、多元样本及其样本数字特征多元样本记npnnppxxxxxxxxx212222111211XnixxxXipiii2,1),(21)

4、(现在学习的是第9页,共58页2、多元样本的数字特征样本均值pnnnnnniiXXXxxxxxxxxxnn2112122221112111)(11现在学习的是第10页,共58页样本离差阵ppijppppppnipippipipippipiiiipipiiiipipiinipipiiiniippssssssssssxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxXxXxXxXXXXS)()()()()()()()()()()()(212222111211122211122222112112211211221112211)(1)(现在学习的是第11页,共58页样本协方差矩阵

5、 或 SnV1SnV11二、多元正态总体的最大似然估计及其性质利用最大似然法求出 和 的最大似然估计为:SnX1现在学习的是第12页,共58页)()(21exp)()(1)(12iininpxx2)()()(),()()2()1(nxfxfxfL)()(21exp)2()(1)(2121 iipnixx求解过程似然函数为:)()(21exp)()(1)(12iininpxxtr2)(21exp)()()(112iininpxxtr2)(21(exp)()()(112iininpxxtr2现在学习的是第13页,共58页对数似然函数为:)(21|ln22ln2),(ln)()(11iinixxtr

6、nnpL)(21|ln22ln211XXnStrnnp)()(2)(21|ln22ln211XXnStrnnp)(21|ln22ln21Strnnp时等号成立仅当X现在学习的是第14页,共58页)(21|ln22ln2),(ln1StrnnpXL)(|ln22ln21nStrnnp)(|ln|ln22ln211nStrnSnSnnp)(|ln|ln22ln221212121nStrnSnSnnp|ln222ln2nSnnpnpnS时等号成立,即pInSA2/12/1(引理:设A为p阶正定矩阵,则 当A=I等号成立。pAAtrln)(现在学习的是第15页,共58页最大似然估计的性质 ,即 是 的

7、无偏估计。,即 不是 的无偏估计。,即 是无偏估计。分别是 的最小方差无偏估量。3.分别是 的一致估计。)(XEXnnSnE1)1(Sn1)11(SnESn 11SnX11,)11(1,SnSnX,现在学习的是第16页,共58页维斯特维斯特(Wishart)分布分布-一元 分布的推广定义:设 个随机向量 独立同分布于 ,则随机矩阵 服从自由度为n的非中心维斯特分布,记为n),3,2,1(),(21)(niXXXipiiiX ),(pNni 1)()(iiW),(nWWp2三、正态总体下的抽样分布随机矩阵的分布:npnnppXXXXXXXXXX212222111211将该矩阵的列向量(或行向量)

8、连接起来组成的长向量称为拉直向量,拉直向量的分布定义为该矩阵的分布,如果是对称矩阵则只取其下三角的部分拉直即可。现在学习的是第17页,共58页性质:(1)若W1和W2独立,其分布分别 和 ,则 分布为 ,即维斯特(Wishart)分布有可加性。(2),C为mp阶的矩阵,则 的分布为 分布。),(nWWpCCW),(1nWp),(2nWp21WW),(21nnWp),(CC nWm现在学习的是第18页,共58页定理:设 分别是来自正态总体 的样本均值和离差阵,则(1)(2)相互独立。S为正定矩阵的充分必要条件是 np。SX,),(pN)1,(nNXp),1(nWSpSX,11现在学习的是第19页

9、,共58页一元正态总体:nXX,1为来自一元正态总体的一组样本211)(1niiniiXXSXnX定理:是相互独立的。与SX证明:构造正交矩阵)1()1()1(1)1(1)1(1)1(10023223123100012112111111nnnnnnnnnnnnnnnnA现在学习的是第20页,共58页做变换nnXXXAYYY2121XnXnYnii1112121212)(XnXXXXXAXAXYYYniiniiniiniiniiYYYS2221122现在学习的是第21页,共58页第三章多元正态总体参数的假设检验HotellingT2分布 一元t分布的推广定义 设 ,且X与S相互独立,则称统计量

10、的分布为非中心的Hotelling T分布,记为 ,当 时称为中心的HotellingT2分布。记为),(),(nWSNXpppn XSXnT12),(22npTT0。),(22npTT一元t分布:设总体 是一组样本,则统计量 ),(2NXnXX,1现在学习的是第22页,共58页)1()(ntXnt其中niiXXn12)(11)()()()(12222XXnXntXSXnT12与 类似并且)1,1()()()()(12222nFXXnXnt现在学习的是第23页,共58页基本性质:),(),(nWSNXpp定理:设 且X与S相互独立,令XSXnT12则)1,(12pnpFTnppn现在学习的是第

11、24页,共58页一、多元正态总体均值向量的假设检验1.单个正态总体(1)协方差矩阵 已知时均值向量的检验01000:为已知向量)(:HH检验统计量)()()()(201020pXXnT设水平为 ,查表确定 ,使得(当H0成立时))(20TP拒绝域为:20T现在学习的是第25页,共58页当原假设成立时)1,(0nNXppZZZXnZ2102/1)(令pIDZEZ,0),0(ppINZZZT20现在学习的是第26页,共58页(2)协方差矩阵 未知时均值向量的检验 01000:为已知向量)(:HH检验统计量),()1(1)1(2pnpFTpnpn),()()()1(20102pnpTXnSXnnT拒

12、绝域为:)1(1)1(2FTpnpn现在学习的是第27页,共58页2.协方差阵相等时,两个正态总体均值向量的检验现在学习的是第28页,共58页3.协方差阵不相等时,两个正态总体均值向量的检验现在学习的是第29页,共58页现在学习的是第30页,共58页一元方差分析一、方差分析的概念及有关术语 方差分析研究的是分类型自变量对数值型因变量的影响,包括它们之间有没有关系、关系的强度如何等,所采用的方法就是检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。例子:为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本。每个行业

13、中所抽取的样本在服务对象、服务内容、企业规模等基本上是相同的,统计出消费者对23家企业的投诉次数,现判断几个行业的服务质量是否有差别。投诉次数如下表:4.多个正态总体均值向量的检验(多元方差分析)现在学习的是第31页,共58页要分析4个行业的服务质量是否有显著差异,实际上就是判断“行业”对投诉次数是否有显著影响,做出这种判断最终归结为检验4个行业被投诉次数的均值是否相等。如果相等则认为行业因素对投诉次数是没有影响的,如果均值不全相等,则意味着行业因素对服务质量有影响。方差分析主要用来对方差分析主要用来对多个总体均值是否相等多个总体均值是否相等作出假设检验作出假设检验。现在学习的是第32页,共5

14、8页相关术语因素(因子)因素(因子):在方差分析中,所要检验的对象称为因素或因子。例子中的“行业”水平水平:因素中的不同表现成为水平。例子中的零售业、旅游业、航空公司、家电制造业是“行业”因素的具体表现,即水平。单因素方差分析单因素方差分析:只针对一个因素进行分析;多因素方差分析多因素方差分析:同时针对多个因素进行分析。现在学习的是第33页,共58页(1 1)每个总体的相应变量(因素的各个水平)服从正态分布。也就是说,对于因素的每个水平,其观测值是来自正态总体的简单随机样本上例中每个行业的投诉次数应服从正态分布。(2 2)所有总体的方差相等2。也就是说,各组观测数据来自相同方差的正态总体。上例

15、中4个行业被投诉次数的方差相同。(3 3)不同观察值相互独立。(每个样本点的取值不影响其他样本点的取值)上例中,每个企业被投诉的次数与其他企业被投诉的次数是相互独立的。方差分析的三个基本假定现在学习的是第34页,共58页问题的一般提法设因素有k个水平,每个水平的均值分别为 ,要检验k个水平(总体)的均值是否相等,提出如下假设:k,21,不全相等kkHH,:211210与原来两两总体的假设检验方法相比,方差分析不仅可以提高检验的效率,同时由于它是将所有的样本信息结合在一起,因此增加了分析的可靠性。,上例中如果用一般的假设检验方法,需要两两组合作6次检验。现在学习的是第35页,共58页某因素不同水

16、平的影响(系统性影响)其他随机因素的影响(随机性影响)水平间方差(组间方差)某因素不同水平的影响(系统性影响)方差分析的思想:组内离差平方和:衡量因素的同一水平下(同一总体)样本数据的 误差。(随机误差)组间离差平方和:衡量因素的不同水平下(不同总体)样本数据的 误差。(系统性误差)总的离差平方和:组内+组间水平内误差(组内方差)水平间误差(组间误差)总的误差其他随机因素的影响(随机性影响)某因素不同水平的影响(系统性影响)水平内误差(组内方差)水平间误差(组间误差)总的误差其他随机因素的影响(随机性影响)某因素不同水平的影响(系统性影响)水平内误差(组内方差)水平间误差(组间误差)总的误差其

17、他随机因素的影响(随机性影响)某因素不同水平的影响(系统性影响)水平内误差(组内方差)水平间误差(组间误差)总的误差其他随机因素的影响(随机性影响)某因素不同水平的影响(系统性影响)水平内误差(组内方差)水平间误差(组间误差)总的误差其他随机因素的影响(随机性影响)某因素不同水平的影响(系统性影响)现在学习的是第36页,共58页如果原假设成立:如果原假设成立:说明某因素不同水平的影响不显著(无系统性影响),只剩下随机性影响,因此组间方差与组内方差差别不大,它们的比接近于1。如果原假设不成立:如果原假设不成立:说明某因素不同水平的影响显著(存在系统性影响),组间方差与组内方差差别较大,它们的比远

18、超出1构造统计量:组内方差组间方差F现在学习的是第37页,共58页 一、单因素方差分析一、单因素方差分析 (一)离差平方和的计算(一)离差平方和的计算 方差分析需考察某因素的影响是否具有系统性,因此,需要将样方差分析需考察某因素的影响是否具有系统性,因此,需要将样本总体离差本总体离差分解分解为两部分为两部分:(1 1)反映系统性影响(因素水平影响)的)反映系统性影响(因素水平影响)的组间离差组间离差 (2 2)反映随机性影响(其他随机因素影响)的)反映随机性影响(其他随机因素影响)的组内离差组内离差。现在学习的是第38页,共58页nxxkjniijj 1 1 为全体样本合并的大样本的样本均值大

19、样本的样本均值jniijjnxxj1为第 j个总体的样本均值的样本均值xij=第j 个子样本中第 i 个观测值;nj=第 j个子样本的样本容量其中,n=n1+n2+nk k为总体的个数于是,大样本的大样本的总离差平方和总离差平方和(Sum of Squares for Total,SST)为:kjniijjxxSST121)(设现在学习的是第39页,共58页 可以证明:第一项第一项是各子样本均值与合并的大样本的公共均值的离差平方和,它反映了因素(变量)不同水平对总离差平方和的影响(系统性影响),称为组间离差平方和组间离差平方和(Sum of Squares for Factor A,SSA);

20、第二项第二项是各子样本内部离差平方和之和,反映了随机性因素的影响(误差性影响),称为组内离差平方和组内离差平方和(Sum of Squares for Error,SSE)。现在学习的是第40页,共58页各误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影响,用各个平方和除以自由度即得到平均平方平均平方(Mean Square):即 SST=SSA+SSE 总离差平方和总离差平方和=组间离差平方和组间离差平方和+组内离差平方组内离差平方和和knSSEMSEkSSAMSA1构造F统计量:),1(knkFMSEMSAF原假设成立现在学习的是第41页,共58页根据给定的显著性

21、水平,查表得到拒绝域:FF 上例中,经计算13.3)9,3(4.305.0FF说明不同行业被投诉次数的均值有显著差异,这意味着行业(自变量)与投诉次数(因变量)之间的关系是显著的。现在学习的是第42页,共58页关系强度的测量上述F统计量只能表明自变量和因变量之间是否有关系,不能表明关系的强弱,为了度量相关强度定义判定系数:SSTSSAR 2R2越大说明关系越强,越小关系越弱。类似于相关系数。上例中,R2=0.349759。这表明行业对投诉次数的影响效应占总效应的34.9759%,而残差效应则占65.0241%。现在学习的是第43页,共58页方差分析中的多重比较上面的分析得出的结论是不同行业被投

22、诉次数的均值是不全相同的,但是究竟哪些均值不相等呢,也就是这种差异究竟出现在哪些行业之间呢?则需要对总体均值进行两两比较。多重比较的方法有很多,我们简单介绍一下由Fisher提出的最小显著差异方法(LSD方法)。检验步骤为:第一步:提出原假设:jijiHH:,:10第二步:计算检验统计量:|jixx 第三步:计算LSD,公式为:)11()(2jinnMSEkntLSD第四步:根据显著性水平做出决策:如果则拒绝原假设,否则接受原假设。LSDxxji|现在学习的是第44页,共58页例:对4个行业的均值作多重比较05.0第一步:提出假设431430311310211210:,:,:,:HHHHHH:

23、检验:检验:检验621第二步:计算检验统计量24593514354914849433121xxxxxx现在学习的是第45页,共58页第三步:计算LSD80.15)6151(5.142093.223.10)5171(5.142093.290.13)6171(5.142093.2621LSDLSDLSD:假设:假设:假设621第四步:做出决策90.13121 xx不能拒绝原假设,说明零售业和 旅游业之间的投诉次数没有显著差异。.现在学习的是第46页,共58页双因素方差分析 单因素方差分析只是考虑一个分类型自变量对数值型因变量的影响。如果同时需考虑两个因素A与B的影响,则可进行双因素双因素方差分析方

24、差分析。例:分析影响彩电销售量的因素,需要考察品牌、销售地区等因素的影响。现有4种品牌的彩电在5各地区进行销售,为分析彩电的“品牌”因素和“地区”因素对销售量是否有影响,调查数据如下:地区因素地区因素地区地区1地区地区2地区地区3地区地区4地区地区5品品牌品牌1365350343340323牌品牌品牌2345368363330333因品牌品牌3358323353343308素品牌品牌4288280298260298现在学习的是第47页,共58页在双因素方差分析中如果两个因素,例如“品牌”和“销售地区”两个因素对销售量的影响是相互独立的,我们分别判断两个因素对销售量的影响,称为无交互作用的双因素

25、方差分析。如果除了两个因素的单独影响外,两个因素的搭配还会对销售量产生新的影响效应,称为有交互作用的双因素方差分析。无交互作用的数据结构现在学习的是第48页,共58页无交互作用的双因素方差分析为了检验两个因素的影响,需要分别对两个因素提出假设。对行因素提出的假设为:不全相等krHH,:211210对列因素提出的假设为:不全相等kkHH,:211210地区对销售量没有显著影响品牌对销售量没有显著影响现在学习的是第49页,共58页离差平方和的分解离差平方和的分解SSESSBSSASST其中:rjkiijxxSST112)(rjjrjkijxxkxxSSA12112).().(21211).().(

26、xxrxxSSBkiirjkii可以证明:rjkijiijxxxxSSE1 12.)(现在学习的是第50页,共58页分别构造统计量)1)(1(,1()1)(1/(1/)1)(1(,1()1)(1/(1/rkrFrkSSErSSBFrkkFrkSSEkSSAFBA关系强度的测量SSTSSBSSAR2现在学习的是第51页,共58页有交互作用的方差分析路段路段1路段路段212619高22420峰32723期425225252162018非71717高82213峰92116期101712例:分别在两个路段和高峰期及非高峰期进行驾车实验,得到20个驾车时间的数据:现在学习的是第52页,共58页个值的总均

27、值全部个水平的样本均值个水平,列因素第对应于行因素第个水平的样本均值列因素第个水平的样本均值行因素第行的观测值个水平的第个水平,列因素第对应于行因素第nxjixjxixljixijjiijl:.rjkimlijlxxSST1 112)(rjjxxkmSSB12).(kiixxrmSSA12.)(rjkijiijxxxxmSSRC112.)(SSRCSSBSSASSTSSE现在学习的是第53页,共58页Wilks分布在一元统计中,方差是刻画随机变量分散程度的一个重要特征,而在多元情况下方差变为协防差矩阵。如何用一个数量指标来反映协方差矩阵所体现的分散程度呢?有的用行列式,有的用迹,目前使用较多的

28、是行列式。定义1:若为广义方差。式则称协方差矩阵的行列),(pNX为样本广义方差。其中称Sn1)()()(1)(XXXXSinii定义2:若,0),(,),(22111nWApnnWApp相互独立,则称和且21AA211/AAA的分布为Wilks分布,记为 ,其中 为自由度。),(21nnp21,nn在实际应用中把 统计量转化为 T2统计量,进而转化为F统计量。现在学习的是第54页,共58页多元方差分析(多个正态总体均值向量的检验)设有k个p元正态总体),(,),(1kppNN从每个总体抽取独立样本个数为nnnnnnkk211,设数据结构为:ktXXXxxxxxxxxxtntttpntntnt

29、ptttpttkkkk,2,1)()(2)(1)()(2)(1)(2)(22)(12)(1)(12)(11全部样本的均值向量pktnitipXXXXnXt2111)(11各总体的均值向量:ktXXXXnXtpttnitittpt,2,1,1)()(2)(11)()(1现在学习的是第55页,共58页与一元方差分析的思想类似,离差平方和变成了离差阵:)()()(1)(XXXXnAtkttt组间离差矩阵:ktnitititXXXXB11)()()()(组内离差矩阵:ktnitititXXXXT11)()()()(总离差矩阵:现在学习的是第56页,共58页提出假设:不全相等kkHH,211210:用似然比原则构造的检验统计量为:)1,(kknpBABTB给定检验的显著性水平,查Wilks分布表,确定临界值,拒绝域为:如果没有Wilks分布表可以用 分布和F分布来近似。2现在学习的是第57页,共58页现在学习的是第58页,共58页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁