《《多元相关与回归》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《多元相关与回归》PPT课件.ppt(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十三章第十三章 多重线性回归与相关多重线性回归与相关第一节第一节 多元线性回归的概念与统计描述多元线性回归的概念与统计描述第二节第二节 多重线性回归的假设检验多重线性回归的假设检验第三节第三节 复相关系数与偏相关系数复相关系数与偏相关系数第四节第四节 自变量筛选自变量筛选一、数据与模型一、数据与模型例例13-1 13-1 为了研究空气中一氧化氮为了研究空气中一氧化氮(NO)(NO)的浓度与汽车的浓度与汽车流量等因素的关系,有人测定了某城市交通点在单流量等因素的关系,有人测定了某城市交通点在单位时间内过往的汽车数、气温、空气湿度、风速及位时间内过往的汽车数、气温、空气湿度、风速及空气中的一氧化
2、氮空气中的一氧化氮(NO)(NO)的浓度,数据如表的浓度,数据如表13-113-1所示。所示。表表13-1 13-1 空气中空气中NONO浓度与相关因素的监测数据浓度与相关因素的监测数据0.0112.407921.514400.0760.505723.01444一氧化氮风速气湿气温车流一氧化氮风速气湿气温车流(Y)(X4)(X3)(X2)(X1)(Y)(X4)(X3)(X2)(X1)0.0992.0068728.014360.0992.006828.014360.0291.835826.010600.1350.408322.018200.1450.656527.014960.1260.6565
3、27.014760.2220.908323.317840.1001.705827.012000.0391.506724.89600.1200.607721.815000.0871.505723.015360.0401.806922.512000.0591.458320.016560.1200.807630.017540.0392.809235.011160.1560.907229.517560.1401.007326.018440.1700.408423.016520.0033.005928.510840.0011.506426.57860.0052.006922.59480.0660.458
4、020.01300 此型资料有一个应变量与多个自变量(此型资料有一个应变量与多个自变量(k k个自变个自变量)依存在关系,它的基本形式为量)依存在关系,它的基本形式为Y=Y=0 0+1 1X X1i1i+2 2X X2i2i+k kX Xkiki+i i。0 0为回归方程的常数项,为回归方程的常数项,j j为偏回归系数为偏回归系数(PARTIAL REGRESSION COEFFICIEBTPARTIAL REGRESSION COEFFICIEBT)相应的由)相应的由样本估计而得的多重线性回归方程为:样本估计而得的多重线性回归方程为:因为因为k k个自变量都具有各自的计量单位及不同的变个自变
5、量都具有各自的计量单位及不同的变异度,所以不能直接用普通偏回归系数的数值大小来反异度,所以不能直接用普通偏回归系数的数值大小来反映各个自变量对反应变量映各个自变量对反应变量Y Y的贡献大小。将原始观测数的贡献大小。将原始观测数据进行标准化转换,即:据进行标准化转换,即:然后用标准化数据进行回归模型拟合,此时所获得的回然后用标准化数据进行回归模型拟合,此时所获得的回归系数,记为归系数,记为P P1 1,P,P2 2,P,P3 3,P,Pk k,标准化偏回归系数标准化偏回归系数(standardized partial regression coefficient)(standardized pa
6、rtial regression coefficient)又又称通径系数称通径系数(path coefficient)(path coefficient)。标准化偏回归系数。标准化偏回归系数P Pi i较大的自变量在数值上对反应变量较大的自变量在数值上对反应变量Y Y的贡献较大。的贡献较大。二、回归参数的估计二、回归参数的估计 多元线性回归方程的建立(利用最小二乘法的原多元线性回归方程的建立(利用最小二乘法的原理)理)虽然多重回归参数估计的原理和方法与简单回归虽然多重回归参数估计的原理和方法与简单回归分析相同,但是随着自变量个数的增加计算量变得相分析相同,但是随着自变量个数的增加计算量变得相当
7、大,一般依软件包来完成。对于本例的数据,经软当大,一般依软件包来完成。对于本例的数据,经软件包计算可得回归方程:件包计算可得回归方程:第十三章第十三章 多重线性回归与相关多重线性回归与相关第一节第一节 多元线性回归的概念与统计描述多元线性回归的概念与统计描述第二节第二节 多重线性回归的假设检验多重线性回归的假设检验第三节第三节 复相关系数与偏相关系数复相关系数与偏相关系数第四节第四节 自变量筛选自变量筛选一、整体回归效应的假设检验一、整体回归效应的假设检验(方差分析方差分析)表表13-2 13-2 检验回归方程整体意义的方差分析表检验回归方程整体意义的方差分析表230.08123总变异总变异0
8、.00090903190.01727残差残差0.00117.590.0159940.06396回归模型回归模型PFMSdfSS变异来源变异来源 SS SS回回它反应在它反应在Y Y的总变异中由于的总变异中由于X X与与Y Y的直线关系而使的直线关系而使Y Y变异减少的部分变异减少的部分.它越大说明回归效果越好它越大说明回归效果越好.SSSS剩剩它反应它反应X X对对Y Y的线性影响之外的一切因素对的线性影响之外的一切因素对Y Y的变异的变异的作用的作用.它越小它越小,说明直线回归的估计误差越小说明直线回归的估计误差越小.二、偏回归系数二、偏回归系数 i i的假设检验的假设检验1.1.假设假设2
9、.2.检验统计量检验统计量 利用软件包对例利用软件包对例13-313-3的四个偏回归系数进行的四个偏回归系数进行t t检验与标准化偏回归系数的结果如表检验与标准化偏回归系数的结果如表13-313-3所示。所示。表表13-3 13-3 偏回归系数偏回归系数t t检验与标准化偏回归系数的结果检验与标准化偏回归系数的结果-0.44700.0046-3.210.01081-0.034681X4-0.001100.9925-0.010.00069083-0.000006551X30.272740.02892.360.001900.004491X20.592490.00054.230.000027480.
10、000116191X100.0546-2.050.06919-0.141661截距标准化偏回归系数P值t值标准误回归系数自由度变量第十三章第十三章 多重线性回归与相关多重线性回归与相关第一节第一节 多元线性回归的概念与统计描述多元线性回归的概念与统计描述第二节第二节 多重线性回归的假设检验多重线性回归的假设检验第三节第三节 复相关系数与偏相关系数复相关系数与偏相关系数第四节第四节 自变量筛选自变量筛选一、确定系数、复相关系数与调整确定系数一、确定系数、复相关系数与调整确定系数 复相关系数的平方称为确定系数复相关系数的平方称为确定系数(coefficient of(coefficient of
11、determination),determination),或决定系数,记为或决定系数,记为R R2 2 ,用于反映线性,用于反映线性回归模型能在多大程度上解释反应变量回归模型能在多大程度上解释反应变量Y Y的变异性。定的变异性。定义为义为R R2 2=SSR/SST.=SSR/SST.它的取值范围为它的取值范围为0-10-1之间。它越接近之间。它越接近1 1,表示样本数据很好地拟合了所选用线性回归模型。,表示样本数据很好地拟合了所选用线性回归模型。R R2 2直接反映了回归方程中所有自变量解释反应变量直接反映了回归方程中所有自变量解释反应变量Y Y总总变异的百分比,或者说,变异的百分比,或者
12、说,R R2 2也可以解释为回归方程使也可以解释为回归方程使反应变量反应变量Y Y的总变异减少的百分比。的总变异减少的百分比。对总体确定系数对总体确定系数R R2 2=0=0的假设检验完全等价于对回的假设检验完全等价于对回归方程的整体方差分析,因为归方程的整体方差分析,因为对例对例13-113-1,由方差分析表可得:,由方差分析表可得:SSR=0.06396 SSR=0.06396 SSE=0.01727 SST=0.08123 SSE=0.01727 SST=0.08123 R R2 2.由此说明,用包含汽车由此说明,用包含汽车流量、气温、气湿与风速这四个自变量的回归方程可流量、气温、气湿与
13、风速这四个自变量的回归方程可解释交通点空气解释交通点空气NONO浓度变异性的浓度变异性的78.74%78.74%复相关系数复相关系数(multiple correlation(multiple correlation coefficient)Rcoefficient)R,定义为确定系数的算术平方根,定义为确定系数的算术平方根,即即 表示变量表示变量Y Y与与k k个自变量的线性相关的个自变量的线性相关的密切程度。密切程度。对本例。表示交通点空气对本例。表示交通点空气NONO浓度与汽车流量、气温、浓度与汽车流量、气温、气湿与风速等四个变量的复相关系数为。气湿与风速等四个变量的复相关系数为。调整复
14、相关系数调整复相关系数(Adjusted R-Square)(Adjusted R-Square)当回归方当回归方程中包含有很多自变量,即使其中有一些自变量对解程中包含有很多自变量,即使其中有一些自变量对解释反应变量变异的贡献极小,随回归方程自变量个数释反应变量变异的贡献极小,随回归方程自变量个数的增加,的增加,R2R2表现只增不减,这是复相关系数的缺点。表现只增不减,这是复相关系数的缺点。调整复相关系数调整复相关系数R R2 2记为记为R R2 2,定义为,定义为对于本例,对于本例,R R2 2,n=23,k=4,n=23,k=4,则调整则调整R R2 2为:为:二、偏相关系数二、偏相关系数
15、 表表13-4 13-4 冷饮销售量、游泳人数与气温数据冷饮销售量、游泳人数与气温数据341369655392749996331253618382231889321066528371931780319244513617617403081439735159369029722267(0C)X3数数X2售量售量X1(0C)X3数数X2售量售量X1气温气温游泳人游泳人冷饮销冷饮销气温气温游泳人游泳人冷饮销冷饮销r12=0.97239r13=0.9809r23=0.97617 同理,汽车与污染数据例中,控制三个自变同理,汽车与污染数据例中,控制三个自变量的影响后,才能真正看得出量的影响后,才能真正看得出
16、Y Y与另一个自变量的相与另一个自变量的相关性,一般地,控制其它变量的影响后,变量关性,一般地,控制其它变量的影响后,变量Y Y与与X X的相关,称为变量的相关,称为变量Y Y与与X X的偏相关系数的偏相关系数(partial(partial correlation coefficient)correlation coefficient),经计算,例,经计算,例13-113-1中空中空气中气中NONO浓度与车流、气温、气湿、风速相关的简单浓度与车流、气温、气湿、风速相关的简单相关系数与偏相关系数由表相关系数与偏相关系数由表13-513-5给出。给出。表表13-5 13-5 空气中空气中NONO
17、浓度与各自变量的相关系数与偏相关系数浓度与各自变量的相关系数与偏相关系数0.0046-0.59275-0.67957风速风速X40.9925-0.002180.2754气湿气湿X30.02890.476700.1724气温气温X20.00050.69200.80800车流车流X1偏相关系数偏相关系数P值值偏偏相关系数相关系数相关系数相关系数自变量自变量图图13-3 汽车污染数据的反应变量与四个自变量的偏相关散点图汽车污染数据的反应变量与四个自变量的偏相关散点图第十三章第十三章 多重线性回归与相关多重线性回归与相关第一节第一节 多元线性回归的概念与统计描述多元线性回归的概念与统计描述第二节第二节 多重线性回归的假设检验多重线性回归的假设检验第三节第三节 复相关系数与偏相关系数复相关系数与偏相关系数第四节第四节 自变量筛选自变量筛选一、自变量筛选的标准与原则一、自变量筛选的标准与原则1.1.残差平方和缩小与确定系数增大残差平方和缩小与确定系数增大2.2.残差均方缩小与调整确定系数增大残差均方缩小与调整确定系数增大统计量统计量二、自变量筛选的常用的方法二、自变量筛选的常用的方法所有可能自变量子集选择所有可能自变量子集选择(all(all possible selection)possible selection)前向选择法前向选择法后向选择法后向选择法逐步选择法逐步选择法