《经济学统计多元正态分布统计推断.pptx》由会员分享,可在线阅读,更多相关《经济学统计多元正态分布统计推断.pptx(83页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一节引言第二节均值向量的检验第三节协差阵的检验第2页/共83页第一节 引言 在单一变量的统计分析中,已经给出了正态总体N(,2)的均值 和方差 2的各种检验。对于多变量的正态总体Np(,),各种实际问题同样要求对 和进行统计推断。例如,我们要考察全国各省、自治区和直辖市的社会经济发展状况,与全国平均水平相比较有无显著性差异等,就涉及到多元正态总体均值向量的检验问题等。本章类似单一变量统计分析中的各种均值和方差的检验,相应地给出多元统计分析中的各种均值向量和协差阵的检验。第3页/共83页其基本思想和步骤均可归纳为:第一,提出待检验的假设H0和H1;第二,给出检验的统计量及其服从的分布;第三,给
2、定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定 域中,以便对待判假设做出决策(拒绝或接受)。在检验的过程中,关键在于对不同的检验给出不同的统计量,而有关统计量的给出大多用似然比方法得到。由于多变量问题的复杂性,本章只侧重于解释选取统计量的合理性,而不给出推导过程,最后给出几个实例。为了更好的说明检验过程中统计量的分布,本章还要介绍HotellingT2分布和Wilks分布的定义。第4页/共83页第二节 均值向量的检验 一单一变量检验的回顾及HotellingT2分布二一个正态总体均值向量的检验三两个正态总体均值向量的检验四多
3、个正态总体均值向量的检验第5页/共83页一、单一变量检验的回顾及HotellingT2分布为了对多元正态总体均值向量作检验,首先需要给出HotellingT2分布的定义。第6页/共83页第7页/共83页第8页/共83页第9页/共83页二、一个正态总体 均值向量的检验在经济生产、管理决策中的很多实际问题,通常要选取多个指标进行考察,根据历史数据,将项指标的历史平均水平记作,考虑新的项指标平均值是否与历史数据记载的平均值有明显差异?若有差异,进一步分析差异主要在哪些指标上,先看下面的实例:n例3.1测量20名健康女性排汗量x1、钠含量x2、钾含量x3得表3.1。问健康女性x1、x2、x3的均值是不
4、是4、50、10?第10页/共83页排汗量排汗量x1钠含量钠含量x2钾含量钾含量x33.73.748.548.59.39.35.75.765.165.18.08.03.83.847.247.210.910.93.23.253.253.212.012.03.13.155.555.59.79.74.64.636.136.17.97.92.42.424.824.814.014.07.27.233.133.17.67.66.76.747.447.48.58.55.45.454.154.111.311.3排汗量排汗量x1钠含量钠含量x2钾含量钾含量x33.93.936.936.912.712.74.54
5、.558.858.812.312.33.53.527.827.89.89.84.54.540.240.28.48.41.51.513.513.510.110.18.58.556.456.47.17.14.54.571.671.68.28.26.56.552.852.810.910.94.14.144.144.111.211.25.55.540.940.99.49.4第11页/共83页n例3.1的数学模型就是:服从要根据20个样品做复合检验:一般的,我们考虑p维正态分布均值等于常数的检验问题:为取自维正态总体 的一个样本,要检验:n其中0为已知p维向量。第12页/共83页第13页/共83页 第1
6、4页/共83页第15页/共83页 第16页/共83页n例3.1测量20名健康女性排汗量x1、钠含量x2、钾含量x3得表3.1。问健康女性x1、x2、x3的均值是不是4、50、10?解:建立用SAS,SPSS等软件都可算出所以否定原假设,即在0.10显著水平下拒绝第17页/共83页三、两个正态总体均值向量的检验例3.2为了研究日美两国在华企业对中国经营环境的评价是否存在差异,从两国在华企业对中国的政治、经济、法律、文化等环境打分,得表3-2。试分析日美两国在华企业对中国经营环境的评价是否存在差异?美国企业号美国企业号政治环境政治环境X1X1经济环境经济环境X2X2法律环境法律环境X3X3文化环境
7、文化环境X4X4美美1 16565353525256060美美2 27575505020205555美美3 36060454535356565美美4 47575404040407070美美5 57070303030305050美美6 65555404035356565美美7 76060454530306060美美8 86565404025256060美美9 96060505030307070美美10105555555535357575第20页/共83页例3.2为了研究日美两国在华企业对中国经营环境的评价是否存在差异,从两国在华企业对中国的政治、经济、法律、文化等环境打分,得表3-2。试分析日美
8、两国在华企业对中国经营环境的评价是否存在差异?日本企业号日本企业号政治环境政治环境Y1Y1经济环境经济环境Y2Y2法律环境法律环境Y3Y3文化环境文化环境Y4Y4日日1 15555555540406565日日2 25050606045457070日日3 34545454535357575日日4 45050505050507070日日5 55555505030307575日日6 66060404045456060日日7 76565555545457575日日8 85050656535358080日日9 94040454530306565日日10104545505045457070第21页/共83
9、页第23页/共83页 第24页/共83页第25页/共83页第26页/共83页 第27页/共83页第28页/共83页第29页/共83页第30页/共83页第31页/共83页例3.2的解:作假设 第32页/共83页所以日美两国在华企业对中国经营环境的评价存在显著差异。第33页/共83页四、多个正态总体均值向量的检验经常遇到这样的问题,有几种不同的原料,要考查它们对产品质量有没有显著的影响。某种新药与其它一些传统药物对病人进行分组实验来考查不同的药物与治愈率有否明显不同,这里我们考查的对象,原料,药物称为因素.当考查的因素只有一个时我们称为单因素问题。如果同时考虑两个或更多的因素问题,则称多因素方差分
10、析(这时计算起来很复杂)。第36页/共83页例:考查温度对某一化工厂产品得率的影响,选了五种不同温度,同一温度做了三次试验,测得结果如下:第37页/共83页n现在分析温度的变化对得率的影响。从平均得率来看,现在分析温度的变化对得率的影响。从平均得率来看,好象温度好象温度对得率是有一定的影响,对得率是有一定的影响,但详细观察一下数据就会发现问题,表现但详细观察一下数据就会发现问题,表现在:在:n(1)同一温度下得率并不完全一样,产生这种差异的原因是由于)同一温度下得率并不完全一样,产生这种差异的原因是由于试验过程中各偶然因素的干扰及测量误差所致,试验过程中各偶然因素的干扰及测量误差所致,这一类误
11、差称为试这一类误差称为试验误差,或随机误差。验误差,或随机误差。n(2)两种温度的率不同的试验中的倾向有所差别。如)两种温度的率不同的试验中的倾向有所差别。如65与与70相比,第一产相比,第一产65比比70好,而后二次好,而后二次70比比65好。产生好。产生这种矛盾现象,显然也可能是由于随机误差的干扰。由于随机误差这种矛盾现象,显然也可能是由于随机误差的干扰。由于随机误差的存在,对于不同温度下的得率的差异自然要提出疑问,这差异是的存在,对于不同温度下的得率的差异自然要提出疑问,这差异是随机误差造成的呢,还是温度不同的影响。随机误差造成的呢,还是温度不同的影响。由于温度的不同而引起由于温度的不同
12、而引起得率的差异我们称为组间误差或系统误差。得率的差异我们称为组间误差或系统误差。n上例全部上例全部15个数据参差不齐,它们的差异叫个数据参差不齐,它们的差异叫总变差总变差。产生总变差。产生总变差的原因有两个的原因有两个n1)随机误差随机误差 2)系统误差系统误差 第38页/共83页方差分析解决这类问题的思想是:l由数据的总变差中分离出随机误差和系统误差。l用系统误差和随机误差在一定条件下进行比较,如差异不大则认为系统误差对指标的影响不大,如系统误差比随机误差大的多,则说明条件的影响很大。以上面的例子说明即温度的变化对得率的影响很大,因此调整温度对产量的影响很大。l选择较好的工艺条件或确定进一
13、步的实验方案。这里介绍几个方差分析术语:因素:实验中的每一个条件,如上例的温度便是一个因素。水平:因素在实验中的等级称为水平,如上例中因素温度分为五个水平:6065,70,75,80。如果把因素记为A,则相应地把水平记为A1,A2,A3,A4,A5.样本:在同样条件下得到不同的实验结果每个结果,称为样本。第39页/共83页4.1单因素方差分析 设因素设因素A取了取了M个水平,每个水平重复了个水平,每个水平重复了N次实验得到次实验得到MN个样本,个样本,在水平在水平Ai下的第下的第j 次实验结果(样本)次实验结果(样本)Xij 可以分解为:可以分解为:这里这里ij N(0,1)。)。为了看出因素
14、各水平影响的大小,将为了看出因素各水平影响的大小,将Xij 再进行分解再进行分解,令令令令第40页/共83页显然显然ai之间有关系之间有关系ai 表示水平表示水平Ai 对实验结果产生的影响,它称做水平对实验结果产生的影响,它称做水平Ai 的效应。的效应。方差分析模型就是建立在以下假定之下:方差分析模型就是建立在以下假定之下:1)2)3)第41页/共83页(一)参数估计(一)参数估计即通过实验估计即通过实验估计和和ai,其估计量记为和,其估计量记为和和和ai。令。令则则这里这里第42页/共83页取取是是的一个无偏估计。的一个无偏估计。类似地可以推出类似地可以推出 的无偏估计是的无偏估计是此时方差
15、分析模型可以改写为:此时方差分析模型可以改写为:反映了误差反映了误差。由于。由于,均为已知故均为已知故可以通过样本求得。可以通过样本求得。第43页/共83页(二)统计检验(二)统计检验如果因素如果因素A对指标有显著的影响,效应对指标有显著的影响,效应ai不全部为零,反之不全部为零,反之则全为零。因此我们假设则全为零。因此我们假设或或基本思想是将总变差进行分离,即系统误差和随机误差。基本思想是将总变差进行分离,即系统误差和随机误差。设:设:Stotal 总变差,即总变差,即第44页/共83页注:交叉项在线性假设下为注:交叉项在线性假设下为0。这里统计量。这里统计量第45页/共83页对它们取期望值
16、,利用对它们取期望值,利用 有有 令令则有则有第46页/共83页如果如果H0:成立,则:成立,则,从而,从而与与之比应近于之比应近于1,即即统计量统计量F 值应近于值应近于1。如果因素。如果因素A 对指标有显著的影响对指标有显著的影响则则 将显著的大于将显著的大于1,这就是为什么可以用统计量,这就是为什么可以用统计量F来进行检验因素来进行检验因素A 是否显著的道理。是否显著的道理。由统计理论推知,在线性模型假设下,由统计理论推知,在线性模型假设下,服从服从(M-1)个自个自由度的由度的分布,分布,服从服从(NM)个自由的个自由的分布,且两者独立,从而分布,且两者独立,从而服从以(服从以(M-1
17、),(),(N-M)为自由度的)为自由度的F分布。分布。第47页/共83页22:04:0148对给出的显著性水平,若p,则拒绝H0,认为各水平的效应有显著差异;否则不能拒绝H0,认为各水平的效应无显著差异则有检验的值为:f f为观测数据求得的统计量为观测数据求得的统计量F F的观测量的观测量且与SSE独立,另外,当H0为真,第48页/共83页方差分析表的一般形式为:方差分析表的一般形式为:第49页/共83页22:04:0150SAS中的procanova用于单因素的方差分析.procanovadata=Manova按多元分析的要求略去有任一缺失值的记录按多元分析的要求略去有任一缺失值的记录ou
18、tstat=;指定统计结果输出的数据集名指定统计结果输出的数据集名class;必需,指定要分析的处理因素必需,指定要分析的处理因素model/选项;必需,必需,给出分析用的方差分析模型给出分析用的方差分析模型means/选项;指定要两两比较的因素及比较方法指定要两两比较的因素及比较方法BY;FREQ;MANOVAH=效应E=效应M=公式.;指定多元方差分析的选项第50页/共83页22:04:0151输出的结果如下:SourceDFSumofSquaresMeanSquareFValPrFModel2119.831386759.915693314.32.0001Error27112.971150
19、04.1841167Total29232.8025367第51页/共83页22:04:0152例3.1 为比较同一类型的三种不同食谱的营养效果,将19只幼鼠随机的分为三组,每组分别为8只、4只、7只,各采用这三种食谱喂养,假定其他条件不变,12周后测得其体重增加量的数据如下,设体重增加数据服从方差分析模型试分析这三种食谱的营养效果是否明显差异.解:体重增加是因变量,因素只有一个:食谱;它有三个水平;调用procanova程序为:第52页/共83页22:04:0153dataexamp3_1;inputrecipe$weight;cards;a1164a1190a1203a1205a1206a1
20、214a1228a1257a2185a2197a2201a2231a3187a3212a3215a3220a3248a3265a3281;run;procanovadata=examp3_1;classrecipe;modelweight=recipe;run;第53页/共83页22:04:0154检验假设H0(即三种食谱的营养效果无显著差异)的p值为0.1863,该值较大,不能拒绝H0,认为无明显差异.第54页/共83页22:04:0155例3.2 有四个不同实验室制同一型号的纸张,为比较它们生产的纸张的光滑度,测量了每个实验室生产的8张,光滑度如下,设数据服从方差分析模型,对显著水平=0.
21、05,析四个实验室生产的纸张光滑度有无显著差异.解:光滑度是因变量,因素只有一个:实验室;它有四个水平;调用procanova程序为:第55页/共83页22:04:0156dataexamp3_2;inputlab$smooth;cards;a138.7a141.5a143.8a144.5a145.5a146.0a147.7a158.0a239.2a239.3a239.7a241.4a241.8a242.9a243.3a245.8a334.0a335.0a339.0a340.0a343.0a343.0a344.0a345.0a434.0a434.8a434.8a435.4a437.2a437.
22、8a441.2a442.8;run;procanovadata=examp3_1;classlab;modelsmooth=lab;run;第56页/共83页22:04:0157检验假设H0(即四个实验室试制的纸张光滑度有无显著差异)的p值为0.0027=0.05,拒绝H0,即认为四个实验室生产的纸张在显著水平0.05下显著不同第57页/共83页4.3 多因素方差分析单因素方差分析的基本思想是在试验条件下,我们将总的误差平方和分离成随机误差Se和系统误差SA,并将其加工成F=SA/Se统计量,当F比1很多时,则认为系统因子即因素对结果有特别的影响。将这一思想推广到多因素A1,A2,AP即得多因
23、素方差分析。以三因素A,B,C为例,我们来推导三因素方差分析的算法,其他多因素方差分析可以同理推广。对因素水平的某一组合如果实验次数为一次,称为无重复实验。若实验次数为多次则称多因素可重复方差分析。这里每一组合的重复次数必须一样。第58页/共83页1)无重复三因素方差分析无重复三因素方差分析记三个因素分别为记三个因素分别为A,B,C,它们的水平数分别为,它们的水平数分别为a,b,c,样,样本记为:本记为:令令表示实验数据的总体均值,表示实验数据的总体均值,分别表示三分别表示三个因素各自的效应,而个因素各自的效应,而分别表示因素分别表示因素A,B,C两两的混合效应,则多因素方差分析线性模型可表示
24、为:两两的混合效应,则多因素方差分析线性模型可表示为:这里,这里,独立同分布。独立同分布。第59页/共83页我们的我们的假设为:假设为:2)可重复多因素方差分析模型)可重复多因素方差分析模型在在 l 次重复实验的情况下,多因素方差分析线性模型为:次重复实验的情况下,多因素方差分析线性模型为:第60页/共83页一般对一般对r 个因素(个因素()的多因素方差分析中)的多因素方差分析中,对于观察值对于观察值的线性模型,有的线性模型,有个各因素主效应,个各因素主效应,个两两不同因素的个两两不同因素的交互效应,交互效应,个(个(r-1)个因素的交互效应以及随机误差)个因素的交互效应以及随机误差项之和。项
25、之和。平方和分解平方和分解在假设之下,可得估计量。在假设之下,可得估计量。第61页/共83页 最小二乘估计最小二乘估计 三因素方差分析各影响得估计量三因素方差分析各影响得估计量 第62页/共83页 分离总平方和为分离总平方和为 其中其中 为残差平方和项,我们可以得到为残差平方和项,我们可以得到三因素方差分析表三因素方差分析表 第63页/共83页第64页/共83页两因素方差分析两因素方差分析anova2语法:语法:Two-way Analysis of Variance(ANOVA)p=anova2(X,reps)p=anova2(X,reps,displayopt)p,table=anova2
26、(.)p,table,stats=anova2(.)这里:这里:X:数据矩阵:数据矩阵reps:重复次数:重复次数第65页/共83页数据的结构为:数据的结构为:下标第一位:下标第一位:A因素水平数因素水平数下标第二位:下标第二位:B因素水平数因素水平数下标第三位:重复次数下标第三位:重复次数本例的数据为:本例的数据为:3131 33 3533 353333 34 37 34 373434 36 37 36 3736 37 3836 37 383535 37 39 37 393636 39 40 39 403939 38 42 38 4238 41 4438 41 44 A1 A2 A3B1B2
27、B4B3第66页/共83页%两因素方差分析两因素方差分析X=load(e:dataanov_2.txt)%读入数据读入数据p=anova2(X,2)%求两因素方差分析求两因素方差分析结果分析:结果分析:A因素有显著性影响,因素有显著性影响,B因素有显著影响。因素有显著影响。AB的交叉因素则没有影响。的交叉因素则没有影响。第67页/共83页多因素方差分析多因素方差分析anovan语法:语法:N-way analysis of variance(ANOVA)p=anovan(x,group)p=anovan(x,group,Param1,val1,Param2,val2,.)p,table=ano
28、van(.)p,table,stats=anovan(.)p,table,stats,terms=anovan(.)例设三因素各有二水平,每个水平搭配下实验一次。例设三因素各有二水平,每个水平搭配下实验一次。52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0 实验数据实验数据 1 2 1 2 1 2 1 2 A因素因素 1 1 2 2 1 1 2 2 B因素因素 1 1 1 1 2 2 2 2 C因素因素第68页/共83页y=52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0g1=1 2 1 2 1 2 1 2;g2=1 1 2 2 1
29、1 2 2;g3=1 1 1 1 2 2 2 2;p=anovan(y,g1 g2 g3,model,interaction,.varname,A,B,C)第69页/共83页结果分析:从方差分析表中我们可以看出结果分析:从方差分析表中我们可以看出A因素对数据具有显著影响,因为因素对数据具有显著影响,因为p=0.03470.05B因素对数据具有显著影响,因为因素对数据具有显著影响,因为p=0.00480.05AB因素对数据具有显著影响,因为因素对数据具有显著影响,因为p=0.0150.05BC因素对数据没有显著影响,因为因素对数据没有显著影响,因为p=0.50.05第70页/共83页4.4多因素
30、方差分析数据统一处理 上面两因素方差分析的例子中,数据文件的准备相当麻烦。我上面两因素方差分析的例子中,数据文件的准备相当麻烦。我们统一将变量们统一将变量X,因素,因素A1,A2,AP看作变量,作为二维数组看作变量,作为二维数组的列,这样方差分析的数据为:的列,这样方差分析的数据为:第71页/共83页可以整理成数据文件名为可以整理成数据文件名为anon_2_2.txt,数据为:,数据为:31 1 1 33 1 1 33 2 1 34 2 1 35 3 1 37 3 1 34 1 2 36 1 2 36 2 2 37 2 2 37 3 2 38 3 2 35 1 3 36 1 3 37 2 3
31、39 2 3 第72页/共83页 39 3 3 40 3 3 39 1 4 38 1 4 38 2 4 41 2 4 42 3 4 44 3 4我们的程序为:我们的程序为:%利用统一的数据格式进行多因素方差分析利用统一的数据格式进行多因素方差分析X=load(e:dataanov_2_2.txt)varnames=A;B;group=X(:,2)X(:,3)%为因素为因素A和和B的各种搭配的各种搭配anovan(X(:,1),group,2,2,varnames)第73页/共83页计算结果与前面方法的一致计算结果与前面方法的一致第74页/共83页例大数据的多因素方差分析,对轿车数据例大数据的多
32、因素方差分析,对轿车数据carbig中的每加仑行驶里中的每加仑行驶里数数MPG进行分析,第一因素为进行分析,第一因素为cy14,是四缸与否。第二因素为产,是四缸与否。第二因素为产地地org(欧洲,日本,美国),第三因素为产出时间(早期、中期、(欧洲,日本,美国),第三因素为产出时间(早期、中期、近期)近期)load carbigvarnames=Origin;4Cyl;MfgDate;anovan(MPG,org cyl4 when,3,3,varnames)第75页/共83页2023/2/17中国人民大学六西格玛质量管理研究中心76 目录 上页 下页 返回 结束 3.3 协方差阵的检验协方差
33、阵的检验 上面讨论了多元正态分布均值的检验。但这仅上面讨论了多元正态分布均值的检验。但这仅仅研究了问题的一个方面,倘若要进一步深究不同仅研究了问题的一个方面,倘若要进一步深究不同总体的平均水平(均值)波动的幅度,前面介绍的总体的平均水平(均值)波动的幅度,前面介绍的方法就无能为力了。本节所介绍的协方差阵的检验方法就无能为力了。本节所介绍的协方差阵的检验可以解决该类问题可以解决该类问题第76页/共83页一、一个正态总体协差阵的检验 第77页/共83页 第78页/共83页二、多个协差阵相等检验 第79页/共83页 第80页/共83页 至少有一对第81页/共83页本章结束第82页/共83页感谢您的观看!第83页/共83页