《现代统计方法.docx》由会员分享,可在线阅读,更多相关《现代统计方法.docx(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第九局部 多元线性回归一、多元线性回归模型1 .多元线性理论回归模型的一般形式对n组试验数据(21,西2,一|,必),(如,巧2,,巧0,%),6 1,2,,/p,y),上式可写成方程组形式 写成矩阵形式为其中y =乃*,X =1x i1X21 X2p*,P -(A) 仇*, =/ 、与*o)J X川Xnp))2 .基本假设条件rank(X) = p + p + 1 ,所以有基本假设n p+1。三、多元回归的显著性检验多元回归的显著性检验包括回归方程的显著性检验和回归系数的显著性检验,两者既有相同之处,也有不同之处。L回归方程显著性的尸检验多元回归方程的显著性检验就是看自变量为/2,从整体上对
2、随机变量丁是否有显著的影响,而提出假设假如H。被接受,那么说明随机变量y与自变量玉,,,之间的关系由线性回归模型表示不合适。同一元回归争论类似,有平方和分解公式E(x- y)2 =一 刃 2 +- %/简写为在正态假设下,当“成立时,统计量对给定的检验水平a ,检验规章为:当尸p-1)时,拒绝”0,否那么就接受“0.2 .回归系数显著性的/检验在多元线性回归中,虽然通过了回归方程的显著性检验(拒绝o),但并不意味着每个自变量对y的影响都是显著的, 因此要对每个自变量进行显著性检验。而提出假设4:Bj=。, j = 12 ,p假如“0J被接受,那么说明自变量勺对随机变量),的影响不显著;假如被拒
3、绝,那么说明自变量勺对随机变量y的影响时 显著的。AA由一N (夕,。2(入丁犬尸),记(XTX)7 = C = (%),那么用N(%c力。2), J = l,2,p,因此,在假设0j.成立下,对给定的检验水平a ,检验规章为:当|/|/2(-1)时,拒绝H。),否那么就接受“0,。尽管回归方程通过了显著性检验,但也会消失某个自变量勺(甚至于每个自变量勺)对随机变量),的影响不显著的状况; 在实际问题中可以删除一些不显著的变量(逐步回归),从而简化而突出主要变量;例1本例争论第三产业对旅游外汇收入的影响。中国统计年鉴把第三产业划分为12个组成局部,分别为耳-农林 牧渔服务业,-地质勘查水利管理
4、业, 一交通运输仓储和邮电通信业,Z-批发零售贸易和餐饮业,/ 一金融保险 业,/ 一房地产业,七-社会服务业,人-卫生体育和社会福利业,莅-教育文化艺术和广播,%。-科学争论和综合艺 术,党政机关,司2-其他行业。y国际旅游外汇收入(百万美元),自变量单位为亿元人民币。执行SPSS操作得回归方程为由Anova表可以看到通过了检验(12个自变量作为一个整体对因变量影响显著)。由系数表可以看到12个自变量都没有通过检验。四、数据处理的基本方法1 ,数据标准化对样本数据 xij,yi, i = l,2,;/ = 1,2,P,记* 冏一切 * 此一 xij =-1=y. =7=称巾为*,为标准化后的
5、数据。其中殉-弓)2为变量勺对应的样本数据的样本方差,二士之(匕-9)为变量),对应的样本数据的样本方差。有时记号=Z(冏者)2,k=Z(匕一夕)2,称为样本离差。2 .标准化回归系数A A AAA A A A A 对拟合回归方程y =4。+尸X+0pXp ,由于y =分0+41 a + x? +,两式相减得中心化回归方程再除以亚7,整理得标准化回归方程例1的标准化回归方程为一般最小二乘估量“表示在其他变量不变下,自变量勺的每单位肯定变化引起的因变量均值的肯定变化量,而外那么 表示自变量勺的每单位相对变化(1%)引起的因变量均值的相对变化量的百分比。3 .总结一般最小二乘估量的系数不具有可比性
6、,如$ = 200 + 200玉+2超。用标准化回归系数解释变量的相对重要性就 比拟抱负了,但要留意的是,当变量之间具有相关性时,会影响标准化回归系数的大小。五、相关系数与打算系数L简洁相关系数在一元线性回归中,定义x与y的样本相关系数为及样本打算系数户,并有因此,样本打算系数户反映了X与y的相关关系,且户越接近1,表示回归拟合效果越好,如户=90%可解释为,由于工的变化而引起y的90%的变化,另10%的变化是由其他因素引起的,或表达为x解释了 y 的90%的变差。类似于上面定义,可定义任意变量为与为的简洁相关系数。和打算系数及变量项与),的简洁相关系数令和打算系数4 .复相关系数在多元线性回
7、归中,类似定义),与玉/2,的样本复打算系数为及样本复相关系数为模型汇总复相关系数R反映了 y与一组变量七/2,/的相关关系。模型RR方调整R方标准估量误差例 1 的 R2= o.875,R = 0.935。1.935a.875.792304.680实际问题中,当然R越接近1越好,但有时顾及到模型结构的合理解释,R2能在0 7左右也是可以接受的,当样本容 量与自变量的个数接近时,R2很简洁接近1,因此不能仅以R2的大小来打算模型的优劣。例2在建立建筑业降低本钱率对流淌资金、固定资金、优良品率、竣工面积、劳动生产率和施工产值的关系时,采用数 据进行回归。从输出结果中可以看出,虽然产=0.9267
8、9,但方程没有通过/检验(P= 0.207 )。六、偏打算系数在多元线性回归分析中,由于自变量之间的相关性的产生,不但使一些量会发生变化,解释上也有所不同。比方在考虑 y与西和乙的关系时,$=90%,解释为不影响了 y的90%, ,巧与其他因素一共影响10%,但培= 90%,又说明玉的 变化有90%是由与引起的,即通过就影响了)的81%,现在再说七是影响),的主要因素就不合适了。因此,当自变量有自相关时,),与一组变量药,巧,广的拟合方程中勺的回归系数。,不能完全反映勺对丁的内在效 /JJJ应,而只反映边际的或局部的效应。一项生产任务由10人完成,甲完成其中10%,假如甲与其他人没有协作,那么
9、甲的力量与其他人相当,但假如甲有关心 其他人的现象,那么甲的力量就不止10%。如何测算出甲的力量呢?设总量为,那就是先让其他9人去生产得产量八9,然 后将甲加进去去生产得产量40,那么为。-%就是甲的贡献,或如3x100%就是甲的力量。余定义记称为X1已在回归模型中,y与之间的偏打算系数。同理,设模型中已含有乙,,“时,再加入七时,y与玉的偏打算系数为它反映了在其它变量不变的状况下,不对y回归的边际贡献。类似定义偏相关系数为偏打算系数的平方根,其符号与相应的回归系数的符号相同。依据偏相关系数的大小,可以判定哪些自变量对因变量的影响较大。比方合 小:2,那么说明对丁的影响要强于否。例3争论北京市
10、各经济开发区经济进展与招商投资的关系,因变量y为各开发区的销售收入(百万元),自变量不为招 商企业数目,为招商企业注册资本(百万元),以V对的、进行二元回归。SPSS操作:进入数据编辑器界面,点击【分析】t【回归】t【统计量】,在翻开的统计量框中点选【局部相关和偏 相关工确定即可。由模型汇总表知:W =().842,即y对王和进行回归时,司和共消退了 y的84.2%变差。由系数表知:y对其的打算系数为小=(0.807)2 =65.1% ,偏打算系数为8之=(0.802)2 =64.3% ;同理可得y对打算系数为=(0.746)2 =55.7% ,偏打算系数为七=(。739尸=54.6%。解释如
11、下:y单独对为回归时,为消退了 y的小=(0.807)2 =65.1%总变差,加入后,又消退了剩余的34.9%中的=(0.739)2 =54.6%的变差,即消退34.9%义54.6%=19.1%的总变差,因此,共消退65.1%+19.1%=84.2%总变差;同理,y单独对与回归时,声消退了 y的42 =3746)2 =55.7%总变差,加入不后,司又消退了剩余的44.3%中的 彳=(0.802)2 =64.3%的变差,即消退44.3%义64.3%=28.5%的总变差,因此,共消退55.7%+28.5%=84.2%总变差。模型汇总模 型RR方调整R方标准估 量的误 差1.918a.842.816475.75182系数a模型非标准化系 数标准 系数tSig.相关性B标准狙至 氏军试用 版零阶偏局部1 (常量)-327.039218.001-1.500.159X12.036,438.5944.649.001.807.802.534x2.468.123.4853.799.003.746,739,436